2011 Fiscal Year Annual Research Report
ウィキペディアのモデル化に基づく解説型テキストの自動生成
Project/Area Number |
22300050
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
藤井 敦 東京工業大学, 大学院・情報理工学研究科, 准教授 (30302433)
|
Co-Investigator(Kenkyū-buntansha) |
徳永 健伸 東京工業大学, 大学院・情報理工学研究科, 教授 (20197875)
|
Keywords | World Wide Web / ウィキペディア / 情報検索 / 自然言語処理 / 用語説明 / 説明の観点 / 機械学習 / クラスタリング |
Research Abstract |
ウィキペディアの登場によって,人手で統制された事典情報が大規模化してきた.しかし,それよりもはるかに大量の「統制されていない情報」がウェブに存在する.本研究の目的は,ウィキペディアをモデル化して,未統制のオンラインテキストから解説型テキストを自動生成することである.具体的には,ウィキペディアの記事集合を解析して「用語説明のモデル」(人間が用語を説明する仕組み)を構築し,当モデルに基づいて,一般のテキスト集合を編集して解説型テキストを合成する.本研究の特長は,用語の種類ごとに説明に必要な観点が異なる点に着目した点にある.例えば,「病名」に関する用語は「症状」や「治療」といった観点で説明されるのに対して,「動物」に関する用語は「生態」や「分布」といった観点で説明される.ウィキペディアの記事にあるセクションを観点と見なして,用語の種類と観点の対応関係を学習する.今年度の成果は以下に示す(a)~(d)の4点である.(a)従来は,用語の種類を特定するためにウィキペディアのカテゴリ情報を人手で修正して利用していた.この問題を解消するために,ウィキペディアの記事集合をクラスタリングすることで,用語の種類に相当する「用語クラスタ」を自動的に特定する手法を提案した.さらに,ウィキペディア記事に関する種々の情報を素性として用いることで,クラスタリングの精度を向上させることに成功した.(b)ウィキペディアのカテゴリ情報を利用して,用語クラスタの名称を自動的に特定する手法を提案した.(c)ウィキペディアのセクション名は著者によって異なるため,「経歴」と「略歴」のような異表記が別の観点として処理されてしまう問題があった.そこで,セクション名もクラスタリングして観点の集合を再構成する手法を提案した.(d)約5000件の用語を対象とした評価実験によって,提案手法の有効性を示した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
種々の提案手法によって,前年度よりも高精度で用語説明を自動編集できるようになった.
|
Strategy for Future Research Activity |
最終年度に向けて研究を総括するために,様々な観点から手法の評価を行い,将来の課題について考察を行う.
|
Research Products
(4 results)