本研究室教員の竹内孔一准教授が日本語小論文データの構築・配布,および研究が認められて電気通信普及財団賞(テレコム学際研究賞)を受賞しました (2023年3月).
研究利用可能な日本語小論文データ GSK2021-b

本研究室教員の竹内孔一准教授が日本語小論文データの構築・配布,および研究が認められて電気通信普及財団賞(テレコム学際研究賞)を受賞しました (2023年3月).
研究利用可能な日本語小論文データ GSK2021-b

述語項構造シソーラス辞書のサーバを公開しました. https://pth.cl.cs.okayama-u.ac.jp/
大学の定期停電のために一度とめたのですが, 述語項構造シソーラス辞書サーバ Predicate Thesaurus サーバがとまっております.ご不便をおかけしますが,しばらくおまちください. 2023/3/6
機材購入の必要があり,3月末まで機材が入らないため,すこし立ち上げに時間がかかります.もう少しお時間いただければと思います. 2023/3/17
丸山直子先生がお書きになられた 書き言葉と話し言葉の格助詞〜コーパスと辞書記述の観点から〜 ひつじ書房 2022
で,述語項構造シソーラスの意味役割 (https://pth.cl.cs.okayama-u.ac.jp/) が引用されました.
金沢で開催された国際会議 IIAI 2022 で M2の江島さん,加納さんがそれぞれ発表しました.
Wataru Kano and Koichi Takeuchi. Data Augmentation for Question Answering using Transformer-Based VAE with Negative Sampling, In Proceedings of The 11th International Congress on Advanced Applied Informatics (IIAI-AAI), pp.467-470, 7th July (2-7, July), Kanazawa, 2022. (DOI 10.1109/IIAIAAI55812.2022.00070)
Chihiro Ejima and Koichi Takeuchi. Statistical Learning Models for Japanese Essay Scoring Toward One-Shot Learning, In Proceedings of The 11th International Congress on Advanced Applied Informatics (IIAI-AAI), pp.313-318, 5th July (2-7, July), Kanazawa, 2022. (DOI 10.1109/IIAIAAI55812.2022.00097)
2022/3/7 にpthが止まっていましたがす3/8に起動しました.
情報処理学会論文誌に竹内 孔一, 大野 雅幸, 泉仁 宏太, 田口 雅弘, 稲田 佳彦, 飯塚 誠也, 阿保 達彦, 上田 均. 「研究利用可能な小論文データに基づく参照文書を利用した小論文採点手法の開発」, Vol.62, No.9, pp.1586-1604が掲載されました. (2021/9/15)
言語資源協会GSKから 日本語小論文データ(GSK2021-B)を公開しました.このデータ構築において特に人手による評点付与の際に気を付けた点や結果について電子情報通信学会のNLC(言語理解とコミュニケーション研究会)で 2021年 9月 16日で発表します.データについてなにか質問のある方などは参加されますと直接お答えできると思います.
かなり昔から使っていたのですが表示ができなくなり更新しました.文字列がEUCで作成していたのでUTF-8にする必要があります.かなり苦労したので少しメモを残しておきます.web上の記述もほとんどないですね.(3ヶ月前に行ったときの記憶で書くので少し違うかも知れません)
やること
(ただし attacheの部分はできていません.更新の際に捨てました)
これはほとんど問題なし.公式を参考にdowload先から utf8版のpukiwiki1.5.0を選択してdownload./var/wwwなど htmlを展開しているところに置くとまずすぐ動いた.
/var/www などの下でおいている pukiwiki/ 以下のバックアップをとる
基本的にattach、backup、cache、counter、diff、wiki の以下のファイルをpukiwiki1.5.0と同じ場所に置くと良い.ただし,ファイル名がDEC9CDF8.txtなどとencodeされていて,これが全部EUCになっているものをUTF-8にしないと表示されない...
まずencls.phpというものをdownload(公式のどこかに指示がありました).しかし使い方に説明無し.これは 1) 指定したディレクトリについて 2) 指定した suffixのファイルを (.txt) を読み込んで 3)指定した文字エンコードにencodeした名前を stdoudに出力するだけです.なので実行しても基本的になにも変化がありません.
そこでencs.phpを下記のように書き換えました(一部表示).やっていることは1)指定のディレクトリのファイル.suffixを読み込んで 新規に サブディレクトリ tmp/の下に UTF-8のファイル名でファイルをコピーしたものを作るというものです.wikiのデイレクトリがだいたい本体で.txtだけですが cache (pukiwikiだと左側の更新リストで表示されるところ)が .refとかあるので,それぞれのデイレクトリで少しずつ実行して UTF-8のタイトルに変更した(かつ中身の文字列もEUCからUTF-8)ファイルを作成します.
// Do
mb_internal_encoding(SOURCE_ENCODING);
mb_detect_order('auto');
$write_dir = './tmp/'; //これ加えた
$matches = array();
foreach ($argv as $arg) {
if (preg_match('/^(.+)(\.[a-zA-Z0-9]+)$/', $arg, $matches)) {
$name = $matches[1];
$suffix = $matches[2];
} else {
$name = $arg;
$suffix = '';
}
//echo $name . $suffix . "\n"; // As-is
if ($f_decode) {
// Decord
echo decode($name) . $suffix . "\n";
} else {
// Decord -> convert -> encode
echo encode(mb_convert_encoding(decode($name),
TARGET_ENCODING, SOURCE_ENCODING)) .
$suffix . "\n";
// copy files with new names <<<< ここを書き換えている.ここから copyまで
$euc_f_name = $name . $suffix ;
$utf8_f_name = $write_dir . encode(mb_convert_encoding(decode($name),
TARGET_ENCODING, SOURCE_ENCODING)) .
$suffix;
copy($euc_f_name,$utf8_f_name);
}
//echo "\n";
}
上記の部分は単に tmpファイルに ファイル名をUTF-8に変換するだけです.
まず自分のpukiwikiの全体をコピー作業用puwkiwkiを /home/jibun/old_pukiwikiとして, wikiのディレクトリについて作業するとします.
先に,/home/jibun/old_pukiwiki/wiki/tmp を作成しておきます
mkdir /home/jibun/old_pukiwiki/wiki/tmp
それで下記のように実行します
cd /home/jibun/old_pukiwiki/wiki
php (enc.phpへのパス)/encls.php --all
すると /home/jibun/old_pukiwiki/wiki/tmp の下に utf-8名になったファイルがコピーされます (中身の文字はEUCのまま).
次に, /home/jibun/old_pukiwiki/wiki/tmp の下のファイルの中身をEUCから UTF-8に変更します.
nkfを使いました.CentOS7上では下記のように実行しました.
cd /home/jibun/old_pukiwiki/wiki/tmp
find . -type f -print0 | xargs -0 -n 256 nkf --overwrite -w -Lu
この内容を pukiwiki1.5.0の wikiの下にコピーすると見えます.他のディレクトリも同様です.
cacheディレクトリの場合は他のタイプのファイルもあるのでそれも変換します.
mkdir /home/jibun/old_pukiwiki/cache/tmp
cd /home/jibun/old_pukiwiki/cache/
php (enc.phpへのパス)/encls.php --suffix='.ref' --all
php (enc.phpへのパス)/encls.php --suffix='.rel' --all
これとファイル名がautolink.datなど英語表記で変換しないものもあるのでそれはコピーします.
cp *.dat tmp/
cp *.html tmp/
このあと中身をutf-8にします
cd /home/jibun/old_pukiwiki/cache/tmp
find . -type f -print0 | xargs -0 -n 256 nkf --overwrite -w -Lu
cache/tmpの内容を 新規 pukiwiki1.5.0の cacheの下に置くと左側に履歴がでると思います
あとのbackupなどはほとんど使って無かったので変換しましたが確認していません.
あと,attacheですが,ファイル名との関係が複雑で (attacheファイルが windowsの shift-jisのテキストなどいろいろあり,また何番目のファイルがattacheされていかなど管理されているのですが,そこを復元するのが難しいそうなのでしませんでした.
言語処理学会年次大会(2021/3)で発表しました