2012 年度実績報告書

和歌形態素解析用辞書開発のための用語連接規則に関する基礎研究

研究課題

研究課題/領域番号	22520458
研究機関	東京工業大学
研究代表者	山元啓史東京工業大学, 留学生センター, 准教授 (30241756)
研究期間 (年度)	2010-04-01 – 2013-03-31
キーワード	和歌 / 辞書 / 連接 / 日本語 / 平安時代 / 解析システム / 古語
研究概要	代表者は2007年に和歌用の形態素解析ツールを開発した。その解析対象は八代集（およそ905年から1205年）に限定されていた。本研究の大きな目的の一つは、八代集から二十一代集にまで解析可能対象を拡大することであり、その辞書を開発することである。しかしながら、従来八代集解析で用いられていた最長一致法では、すべての出力を確認しなければならないので膨大な作業を必要とする。そこで、本研究では八代集の解析済みデータを用いて、連接規則をコンピュータ処理によって獲得する。その獲得した規則を二十一代集の解析処理に応用し、二十一代集の品詞タグづけを行う。その作業を通して、二十一代集から獲得された連接規則から和歌用語の語彙的結束性、あるいは連接規則の理論化を試みる。八代集の辞書を作成する時には、MeCab付属の連接規則学習システムを利用して、CRF(conditional random field)で辞書を生成しつつ、未知語を追加し、誤解析を修正しつつ、辞書を育てていった。しかし、大量のメモリ空間を必要とし、素性の数が増えると学習・生成時間がかかり、スパコンをもってしても、検証、追加、学習、生成、検証のサイクルを繰り返し、出力を確認しながら、辞書を育てていくには現実的ではなかった。 2011年頃より、KyTea（京都大学開発）が利用できるようになり、それに付属する簡易な学習データ、スパースネスなメモリ空間を必要としない点推定による連接規則学習システムにより、ノートブック程度のマシンであっても数十秒で学習モデルの生成ができた。このモデルによる辞書とKyTeaを用いて、二十一代集の単位切りを行ったところ、ほぼ96％の高い割合で品詞タグつけをすることができた。未知語の入力および未知語周辺の連接規則の学習は未知語が出現するたびに行わなければならなかったが、二十一代集の単位分割を行う辞書は完成した。
現在までの達成度 (区分)	理由 25年度が最終年度であるため、記入しない。
今後の研究の推進方策	25年度が最終年度であるため、記入しない。

研究成果
(8件)

すべて 2014 2013 2012 その他

すべて雑誌論文 (3件) (うち査読あり 3件) 学会発表 (4件) 備考 (1件)

[雑誌論文] 『今昔物語集』と『宇治拾遺物語』の同文説話における語の対応2014
- 著者名/発表者名
  田中牧郎, 山元啓史
- 雑誌名
  
  日本語の研究, 日本語学会
  
  巻: Vol. 10, no. 1 ページ: 16-31
- 査読あり
[雑誌論文] A Corpus Study of Emotive Adjectives and Verbs of the Heian Japanese2012
- 著者名/発表者名
  Makiro Tanaka, Hilofumi Yamamoto
- 雑誌名
  
  SNPD2012, Proceedings 13th ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing, IEEE
  
  巻: Vol. SNPD.2012, No. 101 ページ: 377-380
- 査読あり
[雑誌論文] Diachronic Corpus and Linguistic Space: New Methods for the Analysis of Language Change2012
- 著者名/発表者名
  Hilofumi Yamamoto, Makiro Tanaka, Yasuhiro Kondo
- 雑誌名
  
  SNPD2012, Proceedings 13th ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing, IEEE
  
  巻: Vol. SNPD2012, No. 101 ページ: 381-384
- 査読あり
[学会発表] Lexical Modeling of Yamabuki (Japanese Kerria) in Classical Japanese Poetry2013
- 著者名/発表者名
  Hilofumi Yamamoto
- 学会等名
  JADH2013 DH-JAC2013 Conference
- 発表場所
  京都大学百周年時計台記念館
- 年月日
  20130919-20130921
[学会発表] Design of Serial Comparison Model for the Diachronic Corpus Study of Japanese2012
- 著者名/発表者名
  Hilofumi Yamamoto, Makiro Tanaka, Yasuhiro Kondo
- 学会等名
  JADH 2012
- 発表場所
  東京大学本郷キャンパス工学部２号館
- 年月日
  20120915-20120917
[学会発表] Emotive Adjectives and Verbs of the Heian Japanese2012
- 著者名/発表者名
  Makiro Tanaka, Hilofumi Yamamoto
- 学会等名
  JADH 2012
- 発表場所
  東京大学本郷キャンパス工学部２号館
- 年月日
  20120915-20120917
[学会発表] 平安時代日本語の感情形容詞と感情動詞：『源氏物語』『今昔物語集』のコーパス分析を通して2012
- 著者名/発表者名
  田中牧郎, 山元啓史
- 学会等名
  国立国語研究所国際シンポジウム「日本語の自他と項交替」
- 発表場所
  東京都立川市国立国語研究所
- 年月日
  20120804-20120805
[備考] 和歌形態素解析用辞書開発のための用語連接規則に関する基礎研究
- URL
  http://warbler.ryu.titech.ac.jp/~yamagen/waka/kaken2010.html

2012 年度 実績報告書

和歌形態素解析用辞書開発のための用語連接規則に関する基礎研究

研究代表者

山元 啓史 東京工業大学, 留学生センター, 准教授 (30241756)

理由

研究成果

[雑誌論文] 『今昔物語集』と『宇治拾遺物語』の同文説話における語の対応2014

著者名/発表者名

雑誌名

[雑誌論文] A Corpus Study of Emotive Adjectives and Verbs of the Heian Japanese2012

著者名/発表者名

雑誌名

[雑誌論文] Diachronic Corpus and Linguistic Space: New Methods for the Analysis of Language Change2012

著者名/発表者名

雑誌名

[学会発表] Lexical Modeling of Yamabuki (Japanese Kerria) in Classical Japanese Poetry2013

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Design of Serial Comparison Model for the Diachronic Corpus Study of Japanese2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Emotive Adjectives and Verbs of the Heian Japanese2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 平安時代日本語の感情形容詞と感情動詞：『源氏物語』『今昔物語集』のコーパス分析を通して2012

著者名/発表者名

学会等名

発表場所

年月日

[備考] 和歌形態素解析用辞書開発のための 用語連接規則に関する基礎研究

URL

2012 年度実績報告書

山元啓史東京工業大学, 留学生センター, 准教授 (30241756)

[備考] 和歌形態素解析用辞書開発のための用語連接規則に関する基礎研究