• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2009 年度 実績報告書

和文系資料を対象とした形態素解析辞書の開発

研究課題

研究課題/領域番号 21520492
研究機関大学共同利用機関法人人間文化研究機構国立国語研究所

研究代表者

小木曽 智信  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (20337489)

研究分担者 田中 牧郎  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (90217076)
小椋 秀樹  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (00321547)
キーワード日本語史 / 形態素解析 / コーパス / 中古和文
研究概要

初年度である21年度は、まず中古仮名文学作品を対象とした形態素解析辞書を作成するために、主要な中古仮名文学作品を学習用コーパスとして整備するとともに、辞書データベースに未登録語を追加する作業を行った。具体的には『伊勢物語』『大和物語』『土佐日記』『更級日記』『紫式部日記』と『源氏物語』の一部のテキスト、計約11万語分を学習用コーパスとして整備し、ここに現れた未登録語を辞書データベースに登録、これらのデータを用いて形態素解析器MeCab用の辞書を作成した。最新版の解析辞書(中古和文UniDic ver.0.4)の精度は、語彙素認定のレベル(単語の境界認定,品詞認定,辞書の見出し認定のすべてが正解)で約95.5%となった。当初、漢字仮名交じりに校訂済みの中古仮名文学作品(物語・日記文学等)について精度95%以上で解析することを目標としていたが、(未知語を含まない環境下ながら)すでにこれを達成することができた。今後、さらに精度を向上させ、解析できるテキストの範囲を拡大するため、解析辞書の整備を続ける予定である。
日本の古典文学のテキストを、研究に利用可能な、実用的な精度で自動解析できる形態素解析辞書の開発・公開は初めてのことであり、今後、この解析辞書を応用した古典研究の進展が期待される。特にコーパス言語学の手法を用いた語彙・文法分野での応用が期待されるが、この点については次年度以降、応用研究として取り組んでいく予定である。
なお、作成した形態素解析辞書については学会で成果を報告し研究者に公開して評価を行っているところであるが、今後、ホームページを通じて一般公開し、広く利用を呼びかける予定である。

  • 研究成果

    (3件)

すべて 2010 その他

すべて 雑誌論文 (1件) 学会発表 (1件) 備考 (1件)

  • [雑誌論文] 中古和文を対象とした形態素解析辞書の開発2010

    • 著者名/発表者名
      小木曽智信・小椋秀樹・田中牧郎・近藤明日子・伝康晴
    • 雑誌名

      情報処理学会研究報告 人文科学とコンピュータ Vol.2010/CH-85

      ページ: 1-8

  • [学会発表] 中古和文を対象とした形態素解析辞書の開発2010

    • 著者名/発表者名
      小木曽智信・小椋秀樹・田中牧郎・近藤明日子・伝康晴
    • 学会等名
      情報処理学会 第85回人文科学とコンピュータ研究発表会
    • 発表場所
      琉球大学
    • 年月日
      2010-02-06
  • [備考]

    • URL

      http://www2.ninjal.ac.jp/lrc/index.php?UniDic

URL: 

公開日: 2011-06-16   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi