• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2012 Fiscal Year Annual Research Report

和歌形態素解析用辞書開発のための用語連接規則に関する基礎研究

Research Project

Project/Area Number 22520458
Research InstitutionTokyo Institute of Technology

Principal Investigator

山元 啓史  東京工業大学, 留学生センター, 准教授 (30241756)

Project Period (FY) 2010-04-01 – 2013-03-31
Keywords和歌 / 辞書 / 連接 / 日本語 / 平安時代 / 解析システム / 古語
Research Abstract

代表者は2007年に和歌用の形態素解析ツールを開発した。その解析対象は八代集(およそ905年から1205年)に限定されていた。本研究の大きな目的の一つは、八代集から二十一代集にまで解析可能対象を拡大することであり、その辞書を開発することである。
しかしながら、従来八代集解析で用いられていた最長一致法では、すべての出力を確認しなければならないので膨大な作業を必要とする。そこで、本研究では八代集の解析済みデータを用いて、連接規則をコンピュータ処理によって獲得する。その獲得した規則を二十一代集の解析処理に応用し、二十一代集の品詞タグづけを行う。その作業を通して、二十一代集から獲得された連接規則から和歌用語の語彙的結束性、あるいは連接規則の理論化を試みる。八代集の辞書を作成する時には、MeCab付属の連接規則学習システムを利用して、CRF(conditional random field)で辞書を生成しつつ、未知語を追加し、誤解析を修正しつつ、辞書を育てていった。しかし、大量のメモリ空間を必要とし、素性の数が増えると学習・生成時間がかかり、スパコンをもってしても、検証、追加、学習、生成、検証のサイクルを繰り返し、出力を確認しながら、辞書を育てていくには現実的ではなかった。
2011年頃より、KyTea(京都大学開発)が利用できるようになり、それに付属する簡易な学習データ、スパースネスなメモリ空間を必要としない点推定による連接規則学習システムにより、ノートブック程度のマシンであっても数十秒で学習モデルの生成ができた。このモデルによる辞書とKyTeaを用いて、二十一代集の単位切りを行ったところ、ほぼ96%の高い割合で品詞タグつけをすることができた。未知語の入力および未知語周辺の連接規則の学習は未知語が出現するたびに行わなければならなかったが、二十一代集の単位分割を行う辞書は完成した。

Current Status of Research Progress
Reason

25年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

25年度が最終年度であるため、記入しない。

  • Research Products

    (8 results)

All 2014 2013 2012 Other

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (4 results) Remarks (1 results)

  • [Journal Article] 『今昔物語集』と『宇治拾遺物語』の同文説話における語の対応2014

    • Author(s)
      田中牧郎, 山元啓史
    • Journal Title

      日本語の研究, 日本語学会

      Volume: Vol. 10, no. 1 Pages: 16-31

    • Peer Reviewed
  • [Journal Article] A Corpus Study of Emotive Adjectives and Verbs of the Heian Japanese2012

    • Author(s)
      Makiro Tanaka, Hilofumi Yamamoto
    • Journal Title

      SNPD2012, Proceedings 13th ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing, IEEE

      Volume: Vol. SNPD.2012, No. 101 Pages: 377-380

    • Peer Reviewed
  • [Journal Article] Diachronic Corpus and Linguistic Space: New Methods for the Analysis of Language Change2012

    • Author(s)
      Hilofumi Yamamoto, Makiro Tanaka, Yasuhiro Kondo
    • Journal Title

      SNPD2012, Proceedings 13th ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing, IEEE

      Volume: Vol. SNPD2012, No. 101 Pages: 381-384

    • Peer Reviewed
  • [Presentation] Lexical Modeling of Yamabuki (Japanese Kerria) in Classical Japanese Poetry2013

    • Author(s)
      Hilofumi Yamamoto
    • Organizer
      JADH2013 DH-JAC2013 Conference
    • Place of Presentation
      京都大学百周年時計台記念館
    • Year and Date
      20130919-20130921
  • [Presentation] Design of Serial Comparison Model for the Diachronic Corpus Study of Japanese2012

    • Author(s)
      Hilofumi Yamamoto, Makiro Tanaka, Yasuhiro Kondo
    • Organizer
      JADH 2012
    • Place of Presentation
      東京大学本郷キャンパス工学部2号館
    • Year and Date
      20120915-20120917
  • [Presentation] Emotive Adjectives and Verbs of the Heian Japanese2012

    • Author(s)
      Makiro Tanaka, Hilofumi Yamamoto
    • Organizer
      JADH 2012
    • Place of Presentation
      東京大学本郷キャンパス工学部2号館
    • Year and Date
      20120915-20120917
  • [Presentation] 平安時代日本語の感情形容詞と感情動詞:『源氏物語』『今昔物語集』のコーパス分析を通して2012

    • Author(s)
      田中牧郎, 山元啓史
    • Organizer
      国立国語研究所国際シンポジウム「日本語の自他と項交替」
    • Place of Presentation
      東京都立川市国立国語研究所
    • Year and Date
      20120804-20120805
  • [Remarks] 和歌形態素解析用辞書開発のための 用語連接規則に関する基礎研究

    • URL

      http://warbler.ryu.titech.ac.jp/~yamagen/waka/kaken2010.html

URL: 

Published: 2015-05-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi