2008 Fiscal Year Self-evaluation Report
Japanese semantic analysis using balanced corpus of contemporary written Japanese
Project Area | Compilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics |
Project/Area Number |
18061003
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas
|
Allocation Type | Single-year Grants |
Review Section |
Humanities and Social Sciences
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
OKUMURA Manabu Tokyo Institute of Technology, 精密工学研究所, 准教授 (60214079)
|
Project Period (FY) |
2006 – 2010
|
Keywords | 語義タグ付コーパス / 単語の新語義発見 / 機械学習 / 語彙概念構造 / クラスタリング |
Research Abstract |
日本語を対象にした言語処理研究では, 形態素解析, 構文解析について研究が進み, 高精度なツールの開発も行われてきており, それらのツールが日本語学, 日本語教育など他の研究分野でも広く利用されるようになってきている. その一方で, 意味解析については依然研究が遅れており, 一般に利用可能なツールの開発レベルにまで解析精度が到達していない. また, 代表性, 継時性のあるコーパスを用いた言語処理研究は, これまでそのようなコーパスが存在しなかったため, 日本語に関してはまったく行われてこなかったと言って良い. そこで本研究課題では, 研究項目A で構築する代表性, 継時性のあるコーパスを用いた実証研究を行う. 具体的には, 以下の3つを柱とした日本語意味解析手法の開発を行う. (1)機械学習に基づく多義性解消手法の開発とそれを用いた代表性のある語義タグ付コーパスの半自動構築タグ付コーパスから学習した多義性解消システムによりタグ付コーパス作成コストの軽減を図るとともに, 作成されたコーパスを用いてbootstrap的に多義性解消システムの性能向上を図る. (2)単語の新語義, 新用法の自動発見手法の開発時を経るにしたがって単語の意味は変化し, 新しい意味が生まれることが知られている. 継時性のあるコーパスで顕著に見られるこの言語現象を自動的に発見する手法を開発する. (3)語彙概念構造に基づく動詞の意味構造の自動抽出手法の開発と, それを用いた動詞の述語項構造辞書の自動構築手法の開発語彙概念構造は動詞の振る舞いに関する分析から動詞の意味をそれが取る名詞同士の意味関係で記述する言語学に基づく意味構造である. 文の意味構造は, (1)で特定される単語の語義と(3)で抽出される意味構造の統合により得ることができる.
|