2023/6/30 第151回情報基礎とアクセス技術研究発表会

投稿日時: 2023年7月2日投稿者: tkhenwp

第151回情報基礎とアクセス技術研究発表会 (IFAT)に参加しました

2件の発表があり，言語処理に関連する議論で盛り上がりました．encoder系のBERTだけでなく，近年話題になっている生成系(decoder系)の言語モデルについても議論が交わされて，大変興味深かったです．

本研究室教員の竹内孔一准教授が電気通信普及財団賞（テレコム学際研究賞）を受賞しました

投稿日時: 2023年3月30日投稿者: tkhenwp

本研究室教員の竹内孔一准教授が日本語小論文データの構築・配布，および研究が認められて電気通信普及財団賞（テレコム学際研究賞）を受賞しました (2023年3月)．　

研究利用可能な日本語小論文データ GSK2021-b

2023/3/29 述語項構造シソーラス辞書 (Predicate Thesaurus)

投稿日時: 2023年3月29日投稿者: tkhenwp

述語項構造シソーラス辞書のサーバを公開しました． https://pth.cl.cs.okayama-u.ac.jp/

2023/3/6 Predicate Thesaurus (述語項構造シソーラス) サーバ調整中

投稿日時: 2023年3月6日投稿者: tkhenwp

大学の定期停電のために一度とめたのですが，述語項構造シソーラス辞書サーバ Predicate Thesaurus サーバがとまっております．ご不便をおかけしますが，しばらくおまちください． 2023/3/6
機材購入の必要があり，3月末まで機材が入らないため，すこし立ち上げに時間がかかります．もう少しお時間いただければと思います． 2023/3/17

意味役割の分析に関して本で引用されました (2022/7)

投稿日時: 2022年7月19日投稿者: tkhenwp

丸山直子先生がお書きになられた書き言葉と話し言葉の格助詞〜コーパスと辞書記述の観点から〜　　　ひつじ書房 2022
で，述語項構造シソーラスの意味役割 (https://pth.cl.cs.okayama-u.ac.jp/) が引用されました．

M2の江島さん，加納さんがそれぞれ IIAI 2022で発表しました (2022/7)

投稿日時: 2022年7月19日投稿者: tkhenwp

金沢で開催された国際会議 IIAI 2022 で M2の江島さん，加納さんがそれぞれ発表しました．

Wataru Kano and Koichi Takeuchi. Data Augmentation for Question Answering using Transformer-Based VAE with Negative Sampling, In Proceedings of The 11th International Congress on Advanced Applied Informatics (IIAI-AAI), pp.467-470, 7th July (2-7, July), Kanazawa, 2022. (DOI 10.1109/IIAIAAI55812.2022.00070)

Chihiro Ejima and Koichi Takeuchi. Statistical Learning Models for Japanese Essay Scoring Toward One-Shot Learning, In Proceedings of The 11th International Congress on Advanced Applied Informatics (IIAI-AAI), pp.313-318, 5th July (2-7, July), Kanazawa, 2022. (DOI 10.1109/IIAIAAI55812.2022.00097)

2022/3/8 pthを再起動しました

投稿日時: 2022年3月7日投稿者: tkhenwp

2022/3/7 にpthが止まっていましたがす3/8に起動しました．

日本語小論文自動採点に関する論文が掲載されました(2021/9/15)

投稿日時: 2021年9月15日投稿者: tkhenwp

情報処理学会論文誌に竹内孔一, 大野雅幸, 泉仁宏太, 田口雅弘, 稲田佳彦, 飯塚誠也, 阿保達彦, 上田均. 「研究利用可能な小論文データに基づく参照文書を利用した小論文採点手法の開発」, Vol.62, No.9, pp.1586-1604が掲載されました． (2021/9/15)

日本語小論文データの構築について発表します(2021/9/16 木)

投稿日時: 2021年9月8日投稿者: tkhenwp

言語資源協会GSKから日本語小論文データ(GSK2021-B)を公開しました．このデータ構築において特に人手による評点付与の際に気を付けた点や結果について電子情報通信学会のNLC(言語理解とコミュニケーション研究会)で 2021年 9月 16日で発表します．データについてなにか質問のある方などは参加されますと直接お答えできると思います．

Pukiwiki 1.4.5_1 (EUC)を Pukiwiki 1.5.0(UTF-8)に更新したときのメモ (2021/4)

投稿日時: 2021年7月9日投稿者: tkhenwp

研究室で使ってるpukiwikiが突如真っ白

かなり昔から使っていたのですが表示ができなくなり更新しました．文字列がEUCで作成していたのでUTF-8にする必要があります．かなり苦労したので少しメモを残しておきます．web上の記述もほとんどないですね．(3ヶ月前に行ったときの記憶で書くので少し違うかも知れません)

やること

pukiwiki1.4.5_1を pukiwiki1.5.0に更新
EUCで書かれている部分を全部 UTF-8にする　(これがホントに大変)

(ただし attacheの部分はできていません．更新の際に捨てました)

新規pukiwiki1.5.0のインストール

これはほとんど問題なし．公式を参考にdowload先から utf8版のpukiwiki1.5.0を選択してdownload．/var/wwwなど htmlを展開しているところに置くとまずすぐ動いた．

旧pukiwiki (EUCで書かれている) を文字列を変更して移行

/var/www などの下でおいている pukiwiki/ 以下のバックアップをとる

基本的にattach、backup、cache、counter、diff、wiki の以下のファイルをpukiwiki1.5.0と同じ場所に置くと良い．ただし，ファイル名がDEC9CDF8.txtなどとencodeされていて，これが全部EUCになっているものをUTF-8にしないと表示されない．．．

encs.phpを使って各EUCエンコードされたファイル名(中身もEUC)のものはUTF-8エンコードしたファイル名(中身はEUCのまま)に変換する

まずencls.phpというものをdownload(公式のどこかに指示がありました)．しかし使い方に説明無し．これは 1) 指定したディレクトリについて 2) 指定した suffixのファイルを (.txt) を読み込んで 3)指定した文字エンコードにencodeした名前を stdoudに出力するだけです．なので実行しても基本的になにも変化がありません．

そこでencs.phpを下記のように書き換えました(一部表示)．やっていることは1)指定のディレクトリのファイル.suffixを読み込んで新規にサブディレクトリ tmp/の下に UTF-8のファイル名でファイルをコピーしたものを作るというものです．wikiのデイレクトリがだいたい本体で.txtだけですが cache (pukiwikiだと左側の更新リストで表示されるところ)が .refとかあるので，それぞれのデイレクトリで少しずつ実行して UTF-8のタイトルに変更した(かつ中身の文字列もEUCからUTF-8)ファイルを作成します．

// Do
mb_internal_encoding(SOURCE_ENCODING);
mb_detect_order('auto');
$write_dir = './tmp/'; //これ加えた
$matches = array();
foreach ($argv as $arg) {
if (preg_match('/^(.+)(\.[a-zA-Z0-9]+)$/', $arg, $matches)) {
$name = $matches[1];
$suffix = $matches[2];
} else {
$name = $arg;
$suffix = '';
}
//echo $name . $suffix . "\n"; // As-is
if ($f_decode) {
// Decord
echo decode($name) . $suffix . "\n";
} else {
// Decord -> convert -> encode
echo encode(mb_convert_encoding(decode($name),
TARGET_ENCODING, SOURCE_ENCODING)) .
$suffix . "\n";
// copy files with new names <<<< ここを書き換えている．ここから copyまで
$euc_f_name = $name . $suffix ;
$utf8_f_name = $write_dir . encode(mb_convert_encoding(decode($name),
TARGET_ENCODING, SOURCE_ENCODING)) .
$suffix;
copy($euc_f_name,$utf8_f_name);
}
//echo "\n";
}

上記の部分は単に tmpファイルに　ファイル名をUTF-8に変換するだけです．

まず自分のpukiwikiの全体をコピー作業用puwkiwkiを /home/jibun/old_pukiwikiとして， wikiのディレクトリについて作業するとします．
先に，/home/jibun/old_pukiwiki/wiki/tmp を作成しておきます

mkdir /home/jibun/old_pukiwiki/wiki/tmp

それで下記のように実行します

cd /home/jibun/old_pukiwiki/wiki
php (enc.phpへのパス)/encls.php --all

すると /home/jibun/old_pukiwiki/wiki/tmp の下に utf-8名になったファイルがコピーされます (中身の文字はEUCのまま)．

次に， /home/jibun/old_pukiwiki/wiki/tmp の下のファイルの中身をEUCから UTF-8に変更します．
nkfを使いました．CentOS7上では下記のように実行しました．

cd /home/jibun/old_pukiwiki/wiki/tmp
find . -type f -print0 | xargs -0 -n 256 nkf --overwrite -w -Lu

この内容を pukiwiki1.5.0の wikiの下にコピーすると見えます．他のディレクトリも同様です．

cacheの変換

cacheディレクトリの場合は他のタイプのファイルもあるのでそれも変換します．

mkdir /home/jibun/old_pukiwiki/cache/tmp
cd /home/jibun/old_pukiwiki/cache/

php (enc.phpへのパス)/encls.php --suffix='.ref' --all
php (enc.phpへのパス)/encls.php --suffix='.rel' --all

これとファイル名がautolink.datなど英語表記で変換しないものもあるのでそれはコピーします．

cp *.dat tmp/
cp *.html tmp/

このあと中身をutf-8にします

cd /home/jibun/old_pukiwiki/cache/tmp
find . -type f -print0 | xargs -0 -n 256 nkf --overwrite -w -Lu

cache/tmpの内容を新規　 pukiwiki1.5.0の cacheの下に置くと左側に履歴がでると思います

あとのbackupなどはほとんど使って無かったので変換しましたが確認していません．
あと，attacheですが，ファイル名との関係が複雑で (attacheファイルが windowsの shift-jisのテキストなどいろいろあり，また何番目のファイルがattacheされていかなど管理されているのですが，そこを復元するのが難しいそうなのでしませんでした．

Takeuchi Lab

Natural Language Processing