研究概要 |
本研究課題では,研究項目Aで構築する代表性のあるコーパスを用いた実証研究を行う.具体的には,以下の3つを柱とした日本語意味解析手法の開発を行う. 1)機械学習手法に基づく多義性解消手法の開発と,それを用いた代表性のある語義タグ付コーパスの半自動構築 タグ付コーパスから学習した多義性解消システムによりタグ付コーパス作成コストの軽減を図るとともに,作成されたコーパスを用いてbootstrap的に多義性解消システムの性能向上を図る. 2)単語の新語義,新用法の自動発見手法の開発 時を経るにしたがって単語の意味は変化し,新しい意味が生まれることが知られている.今回構築されるような,時間幅を伴うコーパスで顕著に見られるこの言語現象を自動的に発見する手法を開発する.1)で開発する多義性解消手法で特定できない語義は新語義と考えられるため,2)は1)のシステムの自然な拡張と言える. 3)語彙概念構造に基づく動詞の意味構造の自動構築法の開発と語彙概念付与システムの開発 語彙概念構造は動詞の振る舞いに関する分析から動詞の意味をそれが取る名詞同士の意味関係で記述する言語学に基づく意味構造である.文の意味構造は,1)で特定される単語の語義と3)で抽出される意味構造の統合により得ることができる. 今年度は,1)では,「機械学習手法に基づく多義性解消手法の開発と,それを用いた代表性のある語義タグ付コーパスの半自動構築」を目的とし,機械学習手法を用いて単語の語義同定を行う手法の検討を行うとともに,ベースラインとなるシステムを開発した.2)では,未定義語義の判別に関する研究を行った.未定義語義とは,ここではあらかじめ辞書などに定義されていない単語の意味を指す.テキスト中の単語に対し,その単語の意味が定義された語義のいずれかであるか,あるいはそれ以外の未定義語義であるかを判別する手法の開発に取り組んだ.3)では,まず作成しようとするLCS辞書の体系がどの程度言語処理で有効であるかについて述語と項との関係を抽象化してとらえる意味役割付与システムを作成し,その精度をとおしてLCS辞書の有効性を評価した.
|