2011 年度実績報告書

和歌形態素解析用辞書開発のための用語連接規則に関する基礎研究

研究課題

研究課題/領域番号	22520458
研究機関	東京工業大学
研究代表者	山元啓史東京工業大学, 留学生センター, 准教授 (30241756)
キーワード	和歌 / 形態素解析 / 連接規則 / 古代語辞書 / 通時変化 / 品詞体系 / 八代集 / シソーラス
研究概要	二十一代集テキストのうち、国文学研究資料館の二十一代集データベース分の整備は前年度完了し、そのデータを用いて、仮の辞書を作成した。辞書は一部はMeCabのCRF++を用いて学習を行ったが、処理に時間が掛かるため、KyTea(京都テキスト解析ツールキット)を試しに利用したところ、八代集収録の和歌のすべてのフルアノテーションを学習データとして用いても、30秒程度で辞書のモデルを作ることができた。これにより、KyTeaの辞書モデル生成プログラムで全体の辞書を作りなおす作業に計画を変更した。平成23年度は、古典文学大系本その他をスキャンし、表記情報(漠字仮名混じり、送り仮名などの異なりや揺れを調査したもの)を追加し、多種多様な表記に対応したテキストデータを作成した。同時に、八代集の辞書をもとにKyTeaで処理しつつ、未知語と連節規則を学習させな添ら、じょじょに二十一代集全体の形態素解析が可能になるように作業を続けている。実際には、処理に時間がかからなくなったため、補助作業者を依頼するまでもなく、研究者自身で辞書を編集しては、学習させ、実際に処理をさせてみて、修正を加えていく作業を問題なくこなすことができた。当初、大量のメモリと計算速度が必要であったため、東京工業大学のスパコンTSUB柵三を用いて、行う予定であったが、この作業も所有のノートパソコンで実施することができた。修正作業をとおして単に辞書の追加や修正だけでなく、品詞体系の見直しや新たな連接規則を見直し、連接の捉え方についても考察を深めることができた。しかし、まだ理論化には至っていない。'この点が本研究における本質的かつ忍耐力が必要な部分であるが、補助作業者に考察をさせる訳にはいかないので、今後とも研究代表者自らが継続してやって行かなければならないだろう。
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由本研究に関連したプロジェクト、国立国語研究所の通時コーパスプロジェクトが開始され、そこでの研究成果が利用できていること、また、自然言語処理技術の発展により、新しい機械学習ツールが利用できることで、より計算資源の少ない、手間のかからない方法論が利用できたことによる。
今後の研究の推進方策	特に問題点はない。今後は、本研究で開発した二十一代集の辞書を用いて、古代語研究に不可欠な二十一代集シソーラスを開発の研究がこの研究の続きとして計画できよう。

研究成果
(13件)

すべて 2011 その他

すべて雑誌論文 (7件) (うち査読あり 6件) 学会発表 (5件) 備考 (1件)

[雑誌論文] グラフを用いた集合演算による和歌用語の解析2011
- 著者名/発表者名
  山元啓史
- 雑誌名
  
  語彙研究
  
  巻: 9 ページ: 86-94
- DOI
  ISSN1349-6409
- 査読あり
[雑誌論文] Quantitative Analysis of Loanwords of Eight Literary Works in the Heian Period (794-1185)2011
- 著者名/発表者名
  Makiro Tanaka, Hilofumi Yamamoto
- 雑誌名
  
  Osaka symposium on digital humanities 2011
  
  巻: 1 ページ: 51-52
- 査読あり
[雑誌論文] Graph Representation of the Connotations of Classical Japanese Poetic Vocabvilary2011
- 著者名/発表者名
  Hilofumi Yamamoto
- 雑誌名
  
  Osaka symposium on digital humanities 2011
  
  巻: 1 ページ: 42-42
- 査読あり
[雑誌論文] An analysis of Sino-Japanese words of the Heian period for the development of the historical Japanese dictionary2011
- 著者名/発表者名
  Makiro Tanaka, Yamamoto Hilofumi
- 雑誌名
  
  Asialex 2011, Lexicography : Theoretical and Practical Perspectives
  
  ページ: 496-505
- DOI
  ISBN978-4-9901771-1-9
- 査読あり
[雑誌論文] Development of the thesaurus of classical Japanese poetic vocabulary2011
- 著者名/発表者名
  Hilofumi Yamamoto, Makiro Tanaka
- 雑誌名
  
  Asialex 2011, Lexicography : Theoretical and Practical Perspectives
  
  ページ: 576-585
- DOI
  ISBN978-4-9901771-1-9
- 査読あり
[雑誌論文] 「山吹」をめぐる和歌語彙の空間2011
- 著者名/発表者名
  山元啓史
- 雑誌名
  
  じんもんこんシンポジウム2011,人文科学とコンピュータシンポジウム論文集,情報処理学会
  
  巻: 8 ページ: 141-146
- DOI
  ISSN1344-0640
- 査読あり
[雑誌論文] BCCWJ複合辞辞書の仕様・開発・評価2011
- 著者名/発表者名
  山元啓史
- 雑誌名
  
  特定領域研究「日本語コーパス」平成22年度公開ワークショップ(研究成果報告会)予稿集
  
  ページ: 535-544
[学会発表] 「山吹」をめぐる和歌語彙の空間2011
- 著者名/発表者名
  山元啓史
- 学会等名
  じんもんこんシンポジウム2011,情報処理学会
- 発表場所
  京都
- 年月日
  2011-12-10
[学会発表] Quantitative Analysis of Loanwords of Eight Literary Works in the Heian Period (794-1185)2011
- 著者名/発表者名
  Makiro Taaaka, Hilofumi Yamamoto
- 学会等名
  Osaka symposium on digital humanities 2011
- 発表場所
  大阪
- 年月日
  2011-09-13
[学会発表] Graph Representation of the Connotations of Classical Japanese Poetic Vocabvilary2011
- 著者名/発表者名
  Hilofumi Yamamoto
- 学会等名
  Osaka symposium on digital humanities 2011
- 発表場所
  大阪
- 年月日
  2011-09-13
[学会発表] An analysis of Sino-Japanese words of the Heian period for the development of the historical Japanese dictionary2011
- 著者名/発表者名
  Makiro Tanaka, Hilofumi Yamamoto
- 学会等名
  Asialex 2011
- 発表場所
  京都
- 年月日
  2011-08-22
[学会発表] Development of the thesaurus of classical Japanese poetic vocabulary2011
- 著者名/発表者名
  Hilofiuni Yamamoto, Makiro Tanaka
- 学会等名
  Asialex 2011
- 発表場所
  京都
- 年月日
  2011-08-22
[備考]
- URL
  http://warbler.ryu.titech.ac.jp/~yamagen/waka/kaken2010.html

2011 年度 実績報告書

和歌形態素解析用辞書開発のための用語連接規則に関する基礎研究

研究代表者

山元 啓史 東京工業大学, 留学生センター, 准教授 (30241756)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] グラフを用いた集合演算による和歌用語の解析2011

著者名/発表者名

雑誌名

DOI

[雑誌論文] Quantitative Analysis of Loanwords of Eight Literary Works in the Heian Period (794-1185)2011

著者名/発表者名

雑誌名

[雑誌論文] Graph Representation of the Connotations of Classical Japanese Poetic Vocabvilary2011

著者名/発表者名

雑誌名

[雑誌論文] An analysis of Sino-Japanese words of the Heian period for the development of the historical Japanese dictionary2011

著者名/発表者名

雑誌名

DOI

[雑誌論文] Development of the thesaurus of classical Japanese poetic vocabulary2011

著者名/発表者名

雑誌名

DOI

[雑誌論文] 「山吹」をめぐる和歌語彙の空間2011

著者名/発表者名

雑誌名

DOI

[雑誌論文] BCCWJ複合辞辞書の仕様・開発・評価2011

著者名/発表者名

雑誌名

[学会発表] 「山吹」をめぐる和歌語彙の空間2011

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Quantitative Analysis of Loanwords of Eight Literary Works in the Heian Period (794-1185)2011

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Graph Representation of the Connotations of Classical Japanese Poetic Vocabvilary2011

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] An analysis of Sino-Japanese words of the Heian period for the development of the historical Japanese dictionary2011

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Development of the thesaurus of classical Japanese poetic vocabulary2011

著者名/発表者名

学会等名

発表場所

年月日

[備考]

URL

2011 年度実績報告書

山元啓史東京工業大学, 留学生センター, 准教授 (30241756)