2010 Fiscal Year Annual Research Report
Project/Area Number |
21520492
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
小木曽 智信 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (20337489)
|
Co-Investigator(Kenkyū-buntansha) |
田中 牧郎 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (90217076)
小椋 秀樹 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源研究系, 准教授 (00321547)
近藤 明日子 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, プロジェクト特別研究員 (30425722)
|
Keywords | 日本語史 / 形態素解析 / コーパス / 中古和文 |
Research Abstract |
前年度に引き続き、中古和文資料のための形態素解析辞書「中古和文UniDic」の解析精度をさらに向上させ対応する資料を拡大するために、辞書登録語彙と学習用コーパスの充実を行った。約15万語の学習用コーパスを新規追加し、当該コーパスに出現した未知語をすべて辞書データベースに登録したことにより約95%以上という実用的な精度での解析が可能になった。この辞書の見出し語の整備にあたっては、現代語・近代語用のUniDicとの互換性を確保しながら中古語の実態を反映するよう規程を検討しており、これにより通時的な研究を可能にしている。この規程についてマニュアル作成を進めるとともに、言語処理学会第17回年次大会において学会発表を行った。 このように、実用的な段階に達した「中古和文UniDic」について広く周知し利用を促すため、インターネット上で一般公開を行った(2010年10月)。さらに、この辞書を広く研究者に紹介するため日本語学会2010秋季大会においてブース発表を行った。 一方、「中古和文UniDic」を実際に応用した研究としても、当該辞書を用いた総索引の作成システムを開発し、中世の擬古物語「恋路ゆかしき大将」を例として実際に総索引を作成して情報処理学会「じんもんこん2010」において発表した。 これらの研究活動により、実用になる中古和文資料のための形態素解析辞書を開発し広く公開するという当研究の目的は達成されつつあり、この辞書を応用した研究にも予定通り進展している。 当研究の成果の一部である「中古和文を対象とした形態素解析辞書の開発」(情報処理学会研究報告人文科学とコンピュータVol.2010/CH-85、2010年2月)は、情報処理学会「山下記念研究賞」を受賞しており、学会からも高い評価を得ている。
|