• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2010 Fiscal Year Annual Research Report

和歌形態素解析用辞書開発のための用語連接規則に関する基礎研究

Research Project

Project/Area Number 22520458
Research InstitutionTokyo Institute of Technology

Principal Investigator

山元 啓史  東京工業大学, 留学生センター, 准教授 (30241756)

Keywords和歌 / 形態素解析 / 連接規則 / 古代語辞書 / 通時的言語 / 品詞体系 / 八代集 / 語彙論的トポロジー
Research Abstract

22年度は辞書開発環境と作業手順の構築を行い、それを基盤として二十一代集処理に向けた辞書開発を行った。山元(2007)で開発した人代集用の解析済みデータとCRF (Conditional Random Field : http://mecab.sourceforge.net/)を用いて仮の解析辞書を作成した。CRFは語と語のつながりの程度(コスト)を統計的に推定するプログラム(連接パラメタの推定)で、辞書の主要な部分を生成してくれるものである。和歌は多種多様な表現形式で書き表されるため、そのさまざまな表記でも計算処理できるようにまず、表記形式の収集が必要である。国文学研究資料館の二十一代集データベースを用いた(既に利用許諾は得ている)ほか、古典文学大系本その他をスキャンし、表記情報(漢字仮名混じり、送り仮名などの異なりや揺れを調査したもの)を追加し、多種多様な表記に対応したテキストデータを作成した。この作業にはドキュメントスキャナを用いて、電子テキスト化し、コンピュータプログラムによって表記の異なりや揺れを一括して収集整理できる状態にしておく。しかしながら、手作業によるところも多い。国文学研究資料館のデータについては山元(研究業績参照)の八代集研究でも用いている。仮の辞書と二十一代集テキストが準備して、MeCabという形態素解析器で、形態素解析を実施した。MeCabは既成の品詞体系に依存しない設計になっており、現代語のみならず古代語であっても独自の品詞体系で形態素解析器が自作できるからである。特に和歌のような特殊なテキストに依存した品詞体系の取り扱いにも十分に対応できた。

  • Research Products

    (4 results)

All 2011 2010

All Journal Article (3 results) (of which Peer Reviewed: 1 results) Presentation (1 results)

  • [Journal Article] BCCWJ複合辞辞書の仕様・開発・評価2011

    • Author(s)
      近藤泰弘、坂野収、多田知子、岡田純子、山元啓史
    • Journal Title

      特定領域研究「日本語コーパス」平成22年度公開ワークショップ(研究成果報告会)予稿集

      Pages: 534-544

  • [Journal Article] 八代集用語のモデリングシステム2010

    • Author(s)
      山元啓史
    • Journal Title

      じんもんこん2010, 人文科学とコンピュータシンポジウム, 情報処理学会

      Volume: 15 Pages: 247-254

    • Peer Reviewed
  • [Journal Article] ブーリアン演算による歌ことばモデルの解析2010

    • Author(s)
      山元啓史
    • Journal Title

      第16回公開シンポジウム「人文科学とデータベース」論文集、人文系データベース協議会

      Volume: 16 Pages: 37-44

  • [Presentation] BCCWJ複合辞辞書の仕様・開発・評価2011

    • Author(s)
      山元啓史
    • Organizer
      特定領域研究「日本語コーパス」平成22年度公開ワークショップ(研究成果報告会)
    • Place of Presentation
      東京
    • Year and Date
      2011-03-16

URL: 

Published: 2012-07-19  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi