• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2006 年度 実績報告書

代表性のあるコーパスを利用した日本語意味解析

計画研究

研究領域代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備
研究課題/領域番号 18061003
研究機関東京工業大学

研究代表者

奥村 学  東京工業大学, 精密工学研究所, 助教授 (60214079)

研究分担者 白井 清昭  北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (30302970)
竹内 孔一  岡山大学, 自然科学研究科, 講師 (80311174)
中村 誠  北陸先端科学技術大学院大学, 情報科学研究科, 助手 (50377438)
キーワード多義性解消 / 新語義発見 / 語彙概念構造 / 語義タグ付コーパス / 代表性
研究概要

本研究課題では,研究項目Aで構築する代表性のあるコーパスを用いた実証研究を行う.具体的には,以下の3つを柱とした日本語意味解析手法の開発を行う.
1)機械学習手法に基づく多義性解消手法の開発と,それを用いた代表性のある語義タグ付コーパスの半自動構築
タグ付コーパスから学習した多義性解消システムによりタグ付コーパス作成コストの軽減を図るとともに,作成されたコーパスを用いてbootstrap的に多義性解消システムの性能向上を図る.
2)単語の新語義,新用法の自動発見手法の開発
時を経るにしたがって単語の意味は変化し,新しい意味が生まれることが知られている.今回構築されるような,時間幅を伴うコーパスで顕著に見られるこの言語現象を自動的に発見する手法を開発する.1)で開発する多義性解消手法で特定できない語義は新語義と考えられるため,2)は1)のシステムの自然な拡張と言える.
3)語彙概念構造に基づく動詞の意味構造の自動構築法の開発と語彙概念付与システムの開発
語彙概念構造は動詞の振る舞いに関する分析から動詞の意味をそれが取る名詞同士の意味関係で記述する言語学に基づく意味構造である.文の意味構造は,1)で特定される単語の語義と3)で抽出される意味構造の統合により得ることができる.
今年度は,1)では,「機械学習手法に基づく多義性解消手法の開発と,それを用いた代表性のある語義タグ付コーパスの半自動構築」を目的とし,機械学習手法を用いて単語の語義同定を行う手法の検討を行うとともに,ベースラインとなるシステムを開発した.2)では,未定義語義の判別に関する研究を行った.未定義語義とは,ここではあらかじめ辞書などに定義されていない単語の意味を指す.テキスト中の単語に対し,その単語の意味が定義された語義のいずれかであるか,あるいはそれ以外の未定義語義であるかを判別する手法の開発に取り組んだ.3)では,まず作成しようとするLCS辞書の体系がどの程度言語処理で有効であるかについて述語と項との関係を抽象化してとらえる意味役割付与システムを作成し,その精度をとおしてLCS辞書の有効性を評価した.

URL: 

公開日: 2008-05-08   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi