2012 Fiscal Year Annual Research Report

和歌形態素解析用辞書開発のための用語連接規則に関する基礎研究

Research Project

Project/Area Number	22520458
Research Institution	Tokyo Institute of Technology
Principal Investigator	山元啓史東京工業大学, 留学生センター, 准教授 (30241756)
Project Period (FY)	2010-04-01 – 2013-03-31
Keywords	和歌 / 辞書 / 連接 / 日本語 / 平安時代 / 解析システム / 古語
Research Abstract	代表者は2007年に和歌用の形態素解析ツールを開発した。その解析対象は八代集（およそ905年から1205年）に限定されていた。本研究の大きな目的の一つは、八代集から二十一代集にまで解析可能対象を拡大することであり、その辞書を開発することである。しかしながら、従来八代集解析で用いられていた最長一致法では、すべての出力を確認しなければならないので膨大な作業を必要とする。そこで、本研究では八代集の解析済みデータを用いて、連接規則をコンピュータ処理によって獲得する。その獲得した規則を二十一代集の解析処理に応用し、二十一代集の品詞タグづけを行う。その作業を通して、二十一代集から獲得された連接規則から和歌用語の語彙的結束性、あるいは連接規則の理論化を試みる。八代集の辞書を作成する時には、MeCab付属の連接規則学習システムを利用して、CRF(conditional random field)で辞書を生成しつつ、未知語を追加し、誤解析を修正しつつ、辞書を育てていった。しかし、大量のメモリ空間を必要とし、素性の数が増えると学習・生成時間がかかり、スパコンをもってしても、検証、追加、学習、生成、検証のサイクルを繰り返し、出力を確認しながら、辞書を育てていくには現実的ではなかった。 2011年頃より、KyTea（京都大学開発）が利用できるようになり、それに付属する簡易な学習データ、スパースネスなメモリ空間を必要としない点推定による連接規則学習システムにより、ノートブック程度のマシンであっても数十秒で学習モデルの生成ができた。このモデルによる辞書とKyTeaを用いて、二十一代集の単位切りを行ったところ、ほぼ96％の高い割合で品詞タグつけをすることができた。未知語の入力および未知語周辺の連接規則の学習は未知語が出現するたびに行わなければならなかったが、二十一代集の単位分割を行う辞書は完成した。
Current Status of Research Progress	Reason 25年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	25年度が最終年度であるため、記入しない。

Research Products
(8 results)

All 2014 2013 2012 Other

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (4 results) Remarks (1 results)

[Journal Article] 『今昔物語集』と『宇治拾遺物語』の同文説話における語の対応2014
- Author(s)
  田中牧郎, 山元啓史
- Journal Title
  
  日本語の研究, 日本語学会
  
  Volume: Vol. 10, no. 1 Pages: 16-31
- Peer Reviewed
[Journal Article] A Corpus Study of Emotive Adjectives and Verbs of the Heian Japanese2012
- Author(s)
  Makiro Tanaka, Hilofumi Yamamoto
- Journal Title
  
  SNPD2012, Proceedings 13th ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing, IEEE
  
  Volume: Vol. SNPD.2012, No. 101 Pages: 377-380
- Peer Reviewed
[Journal Article] Diachronic Corpus and Linguistic Space: New Methods for the Analysis of Language Change2012
- Author(s)
  Hilofumi Yamamoto, Makiro Tanaka, Yasuhiro Kondo
- Journal Title
  
  SNPD2012, Proceedings 13th ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing, IEEE
  
  Volume: Vol. SNPD2012, No. 101 Pages: 381-384
- Peer Reviewed
[Presentation] Lexical Modeling of Yamabuki (Japanese Kerria) in Classical Japanese Poetry2013
- Author(s)
  Hilofumi Yamamoto
- Organizer
  JADH2013 DH-JAC2013 Conference
- Place of Presentation
  京都大学百周年時計台記念館
- Year and Date
  20130919-20130921
[Presentation] Design of Serial Comparison Model for the Diachronic Corpus Study of Japanese2012
- Author(s)
  Hilofumi Yamamoto, Makiro Tanaka, Yasuhiro Kondo
- Organizer
  JADH 2012
- Place of Presentation
  東京大学本郷キャンパス工学部２号館
- Year and Date
  20120915-20120917
[Presentation] Emotive Adjectives and Verbs of the Heian Japanese2012
- Author(s)
  Makiro Tanaka, Hilofumi Yamamoto
- Organizer
  JADH 2012
- Place of Presentation
  東京大学本郷キャンパス工学部２号館
- Year and Date
  20120915-20120917
[Presentation] 平安時代日本語の感情形容詞と感情動詞：『源氏物語』『今昔物語集』のコーパス分析を通して2012
- Author(s)
  田中牧郎, 山元啓史
- Organizer
  国立国語研究所国際シンポジウム「日本語の自他と項交替」
- Place of Presentation
  東京都立川市国立国語研究所
- Year and Date
  20120804-20120805
[Remarks] 和歌形態素解析用辞書開発のための用語連接規則に関する基礎研究
- URL
  http://warbler.ryu.titech.ac.jp/~yamagen/waka/kaken2010.html

2012 Fiscal Year Annual Research Report

和歌形態素解析用辞書開発のための用語連接規則に関する基礎研究

Principal Investigator

山元 啓史 東京工業大学, 留学生センター, 准教授 (30241756)

Reason

Research Products

[Journal Article] 『今昔物語集』と『宇治拾遺物語』の同文説話における語の対応2014

Author(s)

Journal Title

[Journal Article] A Corpus Study of Emotive Adjectives and Verbs of the Heian Japanese2012

Author(s)

Journal Title

[Journal Article] Diachronic Corpus and Linguistic Space: New Methods for the Analysis of Language Change2012

Author(s)

Journal Title

[Presentation] Lexical Modeling of Yamabuki (Japanese Kerria) in Classical Japanese Poetry2013

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Design of Serial Comparison Model for the Diachronic Corpus Study of Japanese2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Emotive Adjectives and Verbs of the Heian Japanese2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 平安時代日本語の感情形容詞と感情動詞：『源氏物語』『今昔物語集』のコーパス分析を通して2012

Author(s)

Organizer

Place of Presentation

Year and Date

[Remarks] 和歌形態素解析用辞書開発のための 用語連接規則に関する基礎研究

URL

山元啓史東京工業大学, 留学生センター, 准教授 (30241756)

[Remarks] 和歌形態素解析用辞書開発のための用語連接規則に関する基礎研究