2023/3/6 Predicate Thesaurus (述語項構造シソーラス) サーバ調整中

大学の定期停電のために一度とめたのですが, 述語項構造シソーラス辞書サーバ Predicate Thesaurus サーバがとまっております.ご不便をおかけしますが,しばらくおまちください. 2023/3/6
機材購入の必要があり,3月末まで機材が入らないため,すこし立ち上げに時間がかかります.もう少しお時間いただければと思います. 2023/3/17

M2の江島さん,加納さんがそれぞれ IIAI 2022で発表しました (2022/7)

金沢で開催された国際会議 IIAI 2022 で M2の江島さん,加納さんがそれぞれ発表しました.

Wataru Kano and Koichi Takeuchi. Data Augmentation for Question Answering using Transformer-Based VAE with Negative Sampling, In Proceedings of The 11th International Congress on Advanced Applied Informatics (IIAI-AAI), pp.467-470, 7th July (2-7, July), Kanazawa, 2022. (DOI 10.1109/IIAIAAI55812.2022.00070)

Chihiro Ejima and Koichi Takeuchi. Statistical Learning Models for Japanese Essay Scoring Toward One-Shot Learning, In Proceedings of The 11th International Congress on Advanced Applied Informatics (IIAI-AAI), pp.313-318, 5th July (2-7, July), Kanazawa, 2022. (DOI 10.1109/IIAIAAI55812.2022.00097)

日本語小論文データの構築について発表します(2021/9/16 木)

言語資源協会GSKから 日本語小論文データ(GSK2021-B)を公開しました.このデータ構築において特に人手による評点付与の際に気を付けた点や結果について電子情報通信学会のNLC(言語理解とコミュニケーション研究会)で 2021年 9月 16日で発表します.データについてなにか質問のある方などは参加されますと直接お答えできると思います.

Pukiwiki 1.4.5_1 (EUC)を Pukiwiki 1.5.0(UTF-8)に更新したときのメモ (2021/4)

研究室で使ってるpukiwikiが突如真っ白

かなり昔から使っていたのですが表示ができなくなり更新しました.文字列がEUCで作成していたのでUTF-8にする必要があります.かなり苦労したので少しメモを残しておきます.web上の記述もほとんどないですね.(3ヶ月前に行ったときの記憶で書くので少し違うかも知れません)

やること

  1. pukiwiki1.4.5_1を pukiwiki1.5.0に更新
  2. EUCで書かれている部分を全部 UTF-8にする (これがホントに大変)

(ただし attacheの部分はできていません.更新の際に捨てました)

新規pukiwiki1.5.0のインストール

これはほとんど問題なし.公式を参考にdowload先から utf8版のpukiwiki1.5.0を選択してdownload./var/wwwなど htmlを展開しているところに置くとまずすぐ動いた.

旧pukiwiki (EUCで書かれている) を文字列を変更して移行

/var/www などの下でおいている pukiwiki/ 以下のバックアップをとる

基本的にattach、backup、cache、counter、diff、wiki の以下のファイルをpukiwiki1.5.0と同じ場所に置くと良い.ただし,ファイル名がDEC9CDF8.txtなどとencodeされていて,これが全部EUCになっているものをUTF-8にしないと表示されない...

encs.phpを使って各EUCエンコードされたファイル名(中身もEUC)のものはUTF-8エンコードしたファイル名(中身はEUCのまま)に変換する

まずencls.phpというものをdownload(公式のどこかに指示がありました).しかし使い方に説明無し.これは 1) 指定したディレクトリについて 2) 指定した suffixのファイルを (.txt) を読み込んで 3)指定した文字エンコードにencodeした名前を stdoudに出力するだけです.なので実行しても基本的になにも変化がありません.

そこでencs.phpを下記のように書き換えました(一部表示).やっていることは1)指定のディレクトリのファイル.suffixを読み込んで 新規に サブディレクトリ tmp/の下に UTF-8のファイル名でファイルをコピーしたものを作るというものです.wikiのデイレクトリがだいたい本体で.txtだけですが cache (pukiwikiだと左側の更新リストで表示されるところ)が .refとかあるので,それぞれのデイレクトリで少しずつ実行して UTF-8のタイトルに変更した(かつ中身の文字列もEUCからUTF-8)ファイルを作成します.

// Do
mb_internal_encoding(SOURCE_ENCODING);
mb_detect_order('auto');
$write_dir = './tmp/'; //これ加えた
$matches = array();
foreach ($argv as $arg) {
if (preg_match('/^(.+)(\.[a-zA-Z0-9]+)$/', $arg, $matches)) {
$name = $matches[1];
$suffix = $matches[2];
} else {
$name = $arg;
$suffix = '';
}
//echo $name . $suffix . "\n"; // As-is
if ($f_decode) {
// Decord
echo decode($name) . $suffix . "\n";
} else {
// Decord -> convert -> encode
echo encode(mb_convert_encoding(decode($name),
TARGET_ENCODING, SOURCE_ENCODING)) .
$suffix . "\n";
// copy files with new names <<<< ここを書き換えている.ここから copyまで
$euc_f_name = $name . $suffix ;
$utf8_f_name = $write_dir . encode(mb_convert_encoding(decode($name),
TARGET_ENCODING, SOURCE_ENCODING)) .
$suffix;
copy($euc_f_name,$utf8_f_name);
}
//echo "\n";
}

上記の部分は単に tmpファイルに ファイル名をUTF-8に変換するだけです.

まず自分のpukiwikiの全体をコピー作業用puwkiwkiを /home/jibun/old_pukiwikiとして, wikiのディレクトリについて作業するとします.
先に,/home/jibun/old_pukiwiki/wiki/tmp を作成しておきます

mkdir /home/jibun/old_pukiwiki/wiki/tmp

それで下記のように実行します

cd /home/jibun/old_pukiwiki/wiki
php (enc.phpへのパス)/encls.php --all 

すると /home/jibun/old_pukiwiki/wiki/tmp の下に utf-8名になったファイルがコピーされます (中身の文字はEUCのまま).

次に, /home/jibun/old_pukiwiki/wiki/tmp の下のファイルの中身をEUCから UTF-8に変更します.
nkfを使いました.CentOS7上では下記のように実行しました.

cd /home/jibun/old_pukiwiki/wiki/tmp
find . -type f -print0 | xargs -0 -n 256 nkf --overwrite -w -Lu

この内容を pukiwiki1.5.0の wikiの下にコピーすると見えます.他のディレクトリも同様です.

cacheの変換

cacheディレクトリの場合は他のタイプのファイルもあるのでそれも変換します.

mkdir /home/jibun/old_pukiwiki/cache/tmp
cd /home/jibun/old_pukiwiki/cache/
php (enc.phpへのパス)/encls.php --suffix='.ref' --all
php (enc.phpへのパス)/encls.php --suffix='.rel' --all

これとファイル名がautolink.datなど英語表記で変換しないものもあるのでそれはコピーします.

cp *.dat tmp/
cp *.html tmp/

このあと中身をutf-8にします

cd /home/jibun/old_pukiwiki/cache/tmp
find . -type f -print0 | xargs -0 -n 256 nkf --overwrite -w -Lu

cache/tmpの内容を 新規  pukiwiki1.5.0の cacheの下に置くと左側に履歴がでると思います

あとのbackupなどはほとんど使って無かったので変換しましたが確認していません.
あと,attacheですが,ファイル名との関係が複雑で (attacheファイルが windowsの shift-jisのテキストなどいろいろあり,また何番目のファイルがattacheされていかなど管理されているのですが,そこを復元するのが難しいそうなのでしませんでした.

言語処理学会年次大会(2021/3)で発表しました

言語処理学会年次大会(2021/3)で発表しました

  • 小論文採点支援に関するもの
    • 江島知優, 堀江遼河, 竹内孔一. BERT を利用した日本語小論文採点支援システムの検討, E2-4, 3月16日
    • 竹内孔一, 大野雅幸, 泉仁宏太, 田口雅弘, 稲田佳彦, 飯塚誠也, 阿保達彦, 上田均. 模擬試験による研究利用可能な日本語小論文データの構築と採点,
      ワークショップ 「文章の評価と品質推定」WS3-3, 3月19日
  • パタンマッチシステム
    • 小笠原崇, 竹内孔一. 意味役割付与テキストに対するPrologベースの探索木による言語パタンマッチシステム構築, C5-1,3月17日
    • 岡田魁人, 竹内孔一. Blocklyを利用したタグ付きコーパス検索パタン構築ツール, D7-2, 3月18日
  • 述語項構造シソーラス関係
    • 竹内孔一, アラステアバトラー, 長崎郁, プラシャントパルデシ. NPCMJへのPropBank形式の意味役割と概念フレームの付与の進捗報告, E8-4, 3月18日

述語シソーラスに関する論文が LREC2020に掲載されました(2020/6/26)

LREC2020 に述語シソーラスに関する下記の論文が掲載されました

Koichi Takeuchi, Alastair Butler, Iku Nagasaki, Takuya Okamura and Prashant Pardeshi

Constructing Web-Accessible Semantic Role Labels and Frames for Japanese as Additions to the NPCMJ Parsed Corpus
Proceedings of the 12th Language Resources and Evaluation Conference
pp.3153-3161

サイト http://www.lrec-conf.org/proceedings/lrec2020/index.html