2009 Fiscal Year Annual Research Report
Project Area | Compilation of a balanced corpus of written Japanese: Infrastructure for the coming Japanese linguistics |
Project/Area Number |
18061003
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
奥村 学 Tokyo Institute of Technology, 精密工学研究所, 教授 (60214079)
|
Co-Investigator(Kenkyū-buntansha) |
白井 清昭 北陸先端科学技術大学院大学, 情報科学研究科, 准教授 (30302970)
新納 浩幸 茨城大学, 工学部, 准教授 (10250987)
竹内 孔一 岡山大学, 自然科学研究科, 講師 (80311174)
佐々木 稔 茨城大学, 工学部, 講師 (60344834)
中村 誠 北陸先端科学技術大学院大学, 情報科学研究科, 助教 (50377438)
|
Keywords | 語義タグ付コーパス / 単語の新語義発見 / 機械学習 / 語彙概念構造 / クラスタリング |
Research Abstract |
本研究課題では,研究項目Aで構築する代表性のあるコーパスを用いた実証研究として,以下の3つの日本語意味解析手法の開発を行う。 1) 機械学習手法に基づく多義性解消手法の開発と,それを用いた代表性のある語義タグ付コーパスの半自動構築 2) 単語の新語義,新用法の自動発見手法の開発 3) 語彙概念構造に基づく動詞の意味構造の自動抽出手法の開発と,それを用いた動詞の述語項構造辞書の自動構築手法の開発 1)では,代表性のある語義タグ付コーパスを構築するとともに,代表性のあるコーパスを用いた語義曖昧性解消手法を開発している。今年度は代表性のあるコーパスでは不可欠となる異ジャンルコーパスを用いた語義曖昧性解消(語義曖昧性解消におけるジャンル適応)手法の開発を行った.2)では,昨年度までに開発した単語クラスタリング手法を元に,クラスタと既存の辞書の意味とを対応付けることにより,クラスタ中の用例がどのような意味を持つのか,あるいは既存の辞書にない新語義であるのかを決定する手法を開発した.また,外れ値検出手法としてLOFとOne-Class SVMを用いて,新語義を検出する手法を開発した.3)では,動詞の述語項構造辞書の半自動拡張手法の開発を目的に,昨年度までに開発した,動詞と係り名詞の同時クラスタリング手法を元に,多義性を考慮して類似した動詞集合を大規模コーパスから効果的に獲得する手法を開発した.
|