2012 Fiscal Year Annual Research Report
ウィキペディアのモデル化に基づく解説型テキストの自動生成
Project/Area Number |
22300050
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
藤井 敦 東京工業大学, 情報理工学(系)研究科, 准教授 (30302433)
|
Co-Investigator(Kenkyū-buntansha) |
徳永 健伸 東京工業大学, 情報理工学(系)研究科, 教授 (20197875)
|
Project Period (FY) |
2010-04-01 – 2013-03-31
|
Keywords | World Wide Web / ウィキペディア / 自然言語処理 / 情報検索 / 用語説明 / 説明の観点 / 機械学習 / クラスタリング |
Research Abstract |
ウィキペディアの登場によって人手で統制された事典情報が大規模化する一方で,それよりもはるかに大量の統制されていない情報がウェブに存在する.本研究の目的は,ウィキペディアをモデル化して,未統制の情報から解説型テキストを自動生成することである.本研究には以下に示す2つの段階がある.(1)ウィキペディアの記事集合を解析して,「用語説明モデル(人間が用語を説明する仕組み)」を機械学習する.(2)用語説明モデルを用いて,ウェブ上のオンラインテキストから解説型テキストを自動編集する.上記(1)における本研究の特長は,用語の種類ごとに説明に必要な観点が異なる点に着目した点にある.例えば,「病名」に関する用語は「症状」や「治療」といった観点で説明されるのに対して,「動物」に関する用語は「生態」や「分布」といった観点で説明される.ウィキペディア記事の目次項目(セクション)を観点と見なして,用語の種類と観点の対応関係を学習する.ウィキペディアの記事集合をクラスタリングすることで,用語の種類に相当する「用語クラスタ」を自動的に特定する.また,ウィキペディアのカテゴリ情報を利用して,用語クラスタの名称を自動的に特定する.さらに,ウィキペディア記事に関する種々の情報を素性として用いることで,クラスタリングの精度を向上させる.上記(2)では,ある用語(例えば「りんご病」)に関する記述が与えられたときに,「りんご病」が「病名」であり,かつ当該テキストが「りんご病」の「治療」に関する記述であることを特定する.「りんご病」について検索エンジン等で収集されたテキスト集合があれば,「りんご病」に関して多面的な説明情報を提供することができる.約5000件の用語を対象とした実験によって,提案手法の有効性を種々の観点から評価した.
|
Current Status of Research Progress |
Reason
24年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
24年度が最終年度であるため、記入しない。
|
Research Products
(7 results)