研究課題/領域番号 |
22300050
|
研究機関 | 東京工業大学 |
研究代表者 |
藤井 敦 東京工業大学, 情報理工学(系)研究科, 准教授 (30302433)
|
研究分担者 |
徳永 健伸 東京工業大学, 情報理工学(系)研究科, 教授 (20197875)
|
研究期間 (年度) |
2010-04-01 – 2013-03-31
|
キーワード | World Wide Web / ウィキペディア / 自然言語処理 / 情報検索 / 用語説明 / 説明の観点 / 機械学習 / クラスタリング |
研究概要 |
ウィキペディアの登場によって人手で統制された事典情報が大規模化する一方で,それよりもはるかに大量の統制されていない情報がウェブに存在する.本研究の目的は,ウィキペディアをモデル化して,未統制の情報から解説型テキストを自動生成することである.本研究には以下に示す2つの段階がある.(1)ウィキペディアの記事集合を解析して,「用語説明モデル(人間が用語を説明する仕組み)」を機械学習する.(2)用語説明モデルを用いて,ウェブ上のオンラインテキストから解説型テキストを自動編集する.上記(1)における本研究の特長は,用語の種類ごとに説明に必要な観点が異なる点に着目した点にある.例えば,「病名」に関する用語は「症状」や「治療」といった観点で説明されるのに対して,「動物」に関する用語は「生態」や「分布」といった観点で説明される.ウィキペディア記事の目次項目(セクション)を観点と見なして,用語の種類と観点の対応関係を学習する.ウィキペディアの記事集合をクラスタリングすることで,用語の種類に相当する「用語クラスタ」を自動的に特定する.また,ウィキペディアのカテゴリ情報を利用して,用語クラスタの名称を自動的に特定する.さらに,ウィキペディア記事に関する種々の情報を素性として用いることで,クラスタリングの精度を向上させる.上記(2)では,ある用語(例えば「りんご病」)に関する記述が与えられたときに,「りんご病」が「病名」であり,かつ当該テキストが「りんご病」の「治療」に関する記述であることを特定する.「りんご病」について検索エンジン等で収集されたテキスト集合があれば,「りんご病」に関して多面的な説明情報を提供することができる.約5000件の用語を対象とした実験によって,提案手法の有効性を種々の観点から評価した.
|
現在までの達成度 (区分) |
理由
24年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
24年度が最終年度であるため、記入しない。
|