2023/3/6 Predicate Thesaurus (述語項構造シソーラス) サーバ調整中

投稿日時: 2023年3月6日投稿者: tkhenwp

大学の定期停電のために一度とめたのですが，述語項構造シソーラス辞書サーバ Predicate Thesaurus サーバがとまっております．ご不便をおかけしますが，しばらくおまちください． 2023/3/6
機材購入の必要があり，3月末まで機材が入らないため，すこし立ち上げに時間がかかります．もう少しお時間いただければと思います． 2023/3/17

意味役割の分析に関して本で引用されました (2022/7)

投稿日時: 2022年7月19日投稿者: tkhenwp

丸山直子先生がお書きになられた書き言葉と話し言葉の格助詞〜コーパスと辞書記述の観点から〜　　　ひつじ書房 2022
で，述語項構造シソーラスの意味役割 (https://pth.cl.cs.okayama-u.ac.jp/) が引用されました．

M2の江島さん，加納さんがそれぞれ IIAI 2022で発表しました (2022/7)

投稿日時: 2022年7月19日投稿者: tkhenwp

金沢で開催された国際会議 IIAI 2022 で M2の江島さん，加納さんがそれぞれ発表しました．

Wataru Kano and Koichi Takeuchi. Data Augmentation for Question Answering using Transformer-Based VAE with Negative Sampling, In Proceedings of The 11th International Congress on Advanced Applied Informatics (IIAI-AAI), pp.467-470, 7th July (2-7, July), Kanazawa, 2022. (DOI 10.1109/IIAIAAI55812.2022.00070)

Chihiro Ejima and Koichi Takeuchi. Statistical Learning Models for Japanese Essay Scoring Toward One-Shot Learning, In Proceedings of The 11th International Congress on Advanced Applied Informatics (IIAI-AAI), pp.313-318, 5th July (2-7, July), Kanazawa, 2022. (DOI 10.1109/IIAIAAI55812.2022.00097)

2022/3/8 pthを再起動しました

投稿日時: 2022年3月7日投稿者: tkhenwp

2022/3/7 にpthが止まっていましたがす3/8に起動しました．

日本語小論文自動採点に関する論文が掲載されました(2021/9/15)

投稿日時: 2021年9月15日投稿者: tkhenwp

情報処理学会論文誌に竹内孔一, 大野雅幸, 泉仁宏太, 田口雅弘, 稲田佳彦, 飯塚誠也, 阿保達彦, 上田均. 「研究利用可能な小論文データに基づく参照文書を利用した小論文採点手法の開発」, Vol.62, No.9, pp.1586-1604が掲載されました． (2021/9/15)

日本語小論文データの構築について発表します(2021/9/16 木)

投稿日時: 2021年9月8日投稿者: tkhenwp

言語資源協会GSKから日本語小論文データ(GSK2021-B)を公開しました．このデータ構築において特に人手による評点付与の際に気を付けた点や結果について電子情報通信学会のNLC(言語理解とコミュニケーション研究会)で 2021年 9月 16日で発表します．データについてなにか質問のある方などは参加されますと直接お答えできると思います．

述語シソーラスに関する論文が LREC2020に掲載されました(2020/6/26)

投稿日時: 2020年6月26日投稿者: tkhenwp

LREC2020 に述語シソーラスに関する下記の論文が掲載されました

Koichi Takeuchi, Alastair Butler, Iku Nagasaki, Takuya Okamura and Prashant Pardeshi

Constructing Web-Accessible Semantic Role Labels and Frames for Japanese as Additions to the NPCMJ Parsed Corpus
Proceedings of the 12th Language Resources and Evaluation Conference
pp.3153-3161

サイト http://www.lrec-conf.org/proceedings/lrec2020/index.html

KyotoCorpus4.0とNTC1.5を復元する際のエラー (2019/12/18)

投稿日時: 2019年12月18日投稿者: tkhenwp

京都大学コーパス4.0およびNAIST Text Corpus 1.5 を取り出す部分で少し苦労したので書いておきます．
NAIST Text Corpus は京都大学コーパスが完成しないと作ることができないので，京都大学コーパスを正確に取り出すのが重要です．

京都大学コーパス4.0
は毎日新聞95年版のデータにタグ付けされたコーパスで，復元には，毎日新聞95年のデータと上記のリンクからdownloadしたプログラムが必要です．

Ubuntu18.04LTSで実行するとエラーが出て取り出せませんでした．
euc-jp "\xE3" does not map to Unicode at ./src/dupli.pl line 16, line 584.
どうもUbuntuのlocaleを変えるのは大変そうなのでCentOS 6系，7系のマシンで下記を実行します

CentOS系にデータをコピー
src/format.pl と src/dupli.plの上記の部分を変更
format.pl
use encoding 'euc-jp'; #use open IO => ':encoding(euc-jp)'; #binmode(STDERR, ':encoding(euc-jp)'); #binmode STDOUT, ':encoding(euc-jp)'; use encoding 'euc-jp', STDOUT => 'euc-jp';
dupli.pl は追加 use encoding 'euc-jp', STDOUT => 'euc-jp';
これで付属の auto_conv を実行する．
950106.KNPの部分が全角空白が1つずれるため周辺を手で修正
950106 の最初の記事がずれました
dat/rel/950106.KNP これは dat/syn/950106.KNPも同様にずれています # S-ID:950106001-001 部分削除:0:　部分削除:12:蔵相 KNP:2002/12/11 MOD:2004/12/29 * 0 1D + 0 2D 　さきがさきがけ * 名詞組織名 * * けの * 助詞接続助詞 * * * 1 3P + 1 2D の武たけむら * 名詞人名 * * 村正まさよし * 名詞人名 * *
元の文(dat/num/950106.org)をみると
# S-ID:950106001-001 　さきがけの武村正義代表（蔵相）と社会党の五島正規副書記長が．．．．．
と全角空白がはいっている．この除去に失敗しているようす．
別の環境でためしたときに，たまたまうまくいっていたデータがあったので 950106.KNPだけコピーしました
dat/rel/950106.KNP と dat/syn/950106.KNP　を修正

追加情報2019/12/27

他にタグがずれているところ(全角空白がいろいろおこるみたい)
S-ID:950104062-001
ここも人手で修正する必要あり
# S-ID:950104062-001 部分削除:0:　◇ KNP:2002/08/22 MOD:2005/03/01 * 0 2D + 0 3D 　つま * 名詞普通名詞 * * ◇ が * 助詞格助詞 * * * 1 2D + 1 2D 妻「 * 特殊括弧始 * * が「フルフルだ形容詞 * ナ形容詞語幹 + 2 3D フルタタイム * 名詞普通名詞 * * イ」 * 特殊括弧終 * *

つぎに，NTC1.5について．
まず，実行後， dat/ntc/knp または ipaのしたでできたファイルが2927個あることを確認します．無いとどこかで，ファイルが生成されていないので，実験の際に数値がかわなくなります．
KyotoCorpusを上記のように修正して作成したのだが，残念ながら，同じところで反対の現象がおこるので手で修正する必要があります．

NTC1.5では NTC_1.5/dat/ntc/knp に京都大学コーパスフォーマットのデータが作成される．
これは問題なくできました．
NTC_1.5/dat/ntc/ipa/ 側の場合， 950106 の記事が今度は全角空白の分のタグが存在しており，ずれてしまいます．
ipa/950106-0000-950106001.ntc

# S-ID:950106001-001 部分削除:0:　部分削除:12:蔵相 KNP:2002/12/11 MOD:2004/12/29 * 0 1D 1/0 さ　　記号-空白 _ _ O _ きがけのサキガケさきがけ名詞-固有名詞-組織 _ _ B-ORGANIZATION _ * 1 3P 3/0 武ノの助詞-連体化 _ _ O _ 村正タケムラ武村名詞-固有名詞-人名-姓 _ _ B-PERSON _ 義代マサヨシ正義名詞-固有名詞-人名-名 _ _ I-PERSON _ 表とダイヒョウ代表名詞-サ変接続 _ _ O _
これは手で修正するしかないようですね．．．．この文だけなので NTC_1.5/dat/ntc/ipa/側のデータではなく NTC_1.5/dat/ntc/knp/側のデータで処理するとよいかもしれません．

他にずれているところがないかはプログラム処理していくなかでエラーが出ないかぎりなかなか気がつかない．ということで近年のutf8環境でタグ付きコーパスを復元するのは難しいということがわかりました．

Ubuntu18.04インストールメモ(supermicroサーバ)

投稿日時: 2019年11月18日投稿者: tkhenwp

Ubuntu18.04をインストールした際のメモ． (2019/11/18)
GPUを積んでnvidiaのドライバを書き換えていたマシンにUbuntu18.04を新たにインストールする場合

(キーワード: Ubuntu18.04 LTS supermicro install 失敗起動しない /dev/sda clean 繰り返し)

ライブUSBをさして，インストールし，HDDに書き込めたがその後，立ちあがらず．
原因はこれ https://askubuntu.com/questions/882385/dev-sda1-clean-this-message-appears-after-i-startup-my-laptop-then-it-w

nvidiaのドライバが立ち上げをとめていたみたい．

なので，まずライブUSBの起動 (BIOSから UEFI:USB．．．．を #1の優先順位にもってくる)
そのとき「try Ubuntu」を選択 (installではない)
たちあがったUbuntuで，ターミナルを開く

sudo apt-get purge nvidia*

これを実行．　なんとこの時，日本語のキーボードのmapがおかしく，「*」は Shift+「8」のキーだった
これで，今度は先にインストールしておいたHDDを BIOSで優先順位#1に設定して再起動

無事に立ちあがった．

GPUを利用している場合はlinuxのインストールでいろいろ起こる見たいです．

ニューラルネットワークを利用した意味役割付与モデルに関する論文が掲載されました(2019/11/15)

投稿日時: 2019年11月15日投稿者: tkhenwp

下記の論文が掲載されました(2019/11/15)

ニューラルネットワークを利用した日本語意味役割付与モデルの構築
岡村拓哉, 竹内孔一, 石原靖弘
情報処理学会論文誌, Vol.60, No.11, pp.2063-2074 (2019-11-15)

http://id.nii.ac.jp/1001/00200591/

Takeuchi Lab

Natural Language Processing

「未分類」カテゴリーアーカイブ