研究概要 |
ウィキペディアの登場によって,人手で統制された事典情報が大規模化してきた.しかし,それよりもはるかに大量の「統制されていない情報」がウェブに存在する.本研究の目的は,ウィキペディアをモデル化して,未統制のオンラインテキストから解説型テキストを自動生成することである.具体的には,ウィキペディアの記事集合を解析して「用語説明のモデル」(人間が用語を説明する仕組み)を構築し,当モデルに基づいて,一般のテキスト集合を編集して解説型テキストを合成する.本研究の特長は,用語の種類ごとに説明に必要な観点が異なる点に着目した点にある.例えば,「病名」に関する用語は「症状」や「治療」といった観点で説明されるのに対して,「動物」に関する用語は「生態」や「分布」といった観点で説明される.ウィキペディアの記事にあるセクションを観点と見なして,用語の種類と観点の対応関係を学習する.今年度の成果は以下に示す(a)~(d)の4点である.(a)従来は,用語の種類を特定するためにウィキペディアのカテゴリ情報を人手で修正して利用していた.この問題を解消するために,ウィキペディアの記事集合をクラスタリングすることで,用語の種類に相当する「用語クラスタ」を自動的に特定する手法を提案した.さらに,ウィキペディア記事に関する種々の情報を素性として用いることで,クラスタリングの精度を向上させることに成功した.(b)ウィキペディアのカテゴリ情報を利用して,用語クラスタの名称を自動的に特定する手法を提案した.(c)ウィキペディアのセクション名は著者によって異なるため,「経歴」と「略歴」のような異表記が別の観点として処理されてしまう問題があった.そこで,セクション名もクラスタリングして観点の集合を再構成する手法を提案した.(d)約5000件の用語を対象とした評価実験によって,提案手法の有効性を示した.
|