研究領域 | 代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備 |
研究課題/領域番号 |
18061003
|
研究種目 |
特定領域研究
|
配分区分 | 補助金 |
審査区分 |
人文・社会系
|
研究機関 | 東京工業大学 |
研究代表者 |
奥村 学 東京工業大学, 精密工学研究所, 教授 (60214079)
|
研究分担者 |
白井 清昭 北陸先端科学技術大学院大学, 情報科学研究科, 准教授 (30302970)
新納 浩幸 茨城大学, 工学部, 准教授 (10250987)
高村 大也 東京工業大学, 精密工学研究所, 准教授 (80361773)
竹内 孔一 岡山大学, 自然科学研究科, 講師 (80311174)
佐々木 稔 茨城大学, 工学部, 講師 (60344834)
中村 誠 北陸先端科学技術大学院大学, 情報科学研究科, 助教 (50377438)
|
研究期間 (年度) |
2006 – 2010
|
研究課題ステータス |
完了 (2010年度)
|
配分額 *注記 |
84,700千円 (直接経費: 84,700千円)
2010年度: 18,400千円 (直接経費: 18,400千円)
2009年度: 18,400千円 (直接経費: 18,400千円)
2008年度: 18,400千円 (直接経費: 18,400千円)
2007年度: 18,400千円 (直接経費: 18,400千円)
2006年度: 11,100千円 (直接経費: 11,100千円)
|
キーワード | 語義タグ付コーパス / 単語の新語義発見 / 機械学習 / 語彙概念構造 / クラスタリング / 多義性解消 / 新語義発見 / 代表性 |
研究概要 |
語義タグ付コーパスの構築では,データ班から公開されているコアデータに対して,岩波国語辞典中の語義の区分に基づき,人手で語義を付与する作業を行った.BCCWJを用いた新しい語義曖昧性解消タスクでは,語義曖昧性解消に関する評価型ワークショップであるSemeval-2(http://semeval2.fbk.eu/Semeval2.html)にBCCWJ を用いた語義曖昧性解消の評価型タスクを提案し,採択された.代表性のあるコーパスを用いた語義曖昧性解消では,ソースデータとターゲットデータの組み合わせごとに効果的な領域適応手法を自動的に選択する手法の開発を行っている.半教師ありクラスタリング手法の開発と,多義性解消への適用では,クラスタリング時に,教師情報を部分的に利用する,半教師ありクラスタリング手法を開発している.
|