2011 年度実績報告書

ウィキペディアのモデル化に基づく解説型テキストの自動生成

研究課題

研究課題/領域番号	22300050
研究機関	東京工業大学
研究代表者	藤井敦東京工業大学, 大学院・情報理工学研究科, 准教授 (30302433)
研究分担者	徳永健伸東京工業大学, 大学院・情報理工学研究科, 教授 (20197875)
キーワード	World Wide Web / ウィキペディア / 情報検索 / 自然言語処理 / 用語説明 / 説明の観点 / 機械学習 / クラスタリング
研究概要	ウィキペディアの登場によって,人手で統制された事典情報が大規模化してきた.しかし,それよりもはるかに大量の「統制されていない情報」がウェブに存在する.本研究の目的は,ウィキペディアをモデル化して,未統制のオンラインテキストから解説型テキストを自動生成することである.具体的には,ウィキペディアの記事集合を解析して「用語説明のモデル」(人間が用語を説明する仕組み)を構築し,当モデルに基づいて,一般のテキスト集合を編集して解説型テキストを合成する.本研究の特長は,用語の種類ごとに説明に必要な観点が異なる点に着目した点にある.例えば,「病名」に関する用語は「症状」や「治療」といった観点で説明されるのに対して,「動物」に関する用語は「生態」や「分布」といった観点で説明される.ウィキペディアの記事にあるセクションを観点と見なして,用語の種類と観点の対応関係を学習する.今年度の成果は以下に示す(a)～(d)の4点である.(a)従来は,用語の種類を特定するためにウィキペディアのカテゴリ情報を人手で修正して利用していた.この問題を解消するために,ウィキペディアの記事集合をクラスタリングすることで,用語の種類に相当する「用語クラスタ」を自動的に特定する手法を提案した.さらに,ウィキペディア記事に関する種々の情報を素性として用いることで,クラスタリングの精度を向上させることに成功した.(b)ウィキペディアのカテゴリ情報を利用して,用語クラスタの名称を自動的に特定する手法を提案した.(c)ウィキペディアのセクション名は著者によって異なるため,「経歴」と「略歴」のような異表記が別の観点として処理されてしまう問題があった.そこで,セクション名もクラスタリングして観点の集合を再構成する手法を提案した.(d)約5000件の用語を対象とした評価実験によって,提案手法の有効性を示した.
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由種々の提案手法によって,前年度よりも高精度で用語説明を自動編集できるようになった.
今後の研究の推進方策	最終年度に向けて研究を総括するために,様々な観点から手法の評価を行い,将来の課題について考察を行う.

研究成果
(4件)

すべて 2012 2011

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (2件)

[雑誌論文] Circulation of Collective Intelligence through Patent s: An Early Progress Report2011
- 著者名/発表者名
  Koiti Hasida, Hidetsugu Nanba, Takashi Inui, Makoto Iwayama, Taiichi Hashimoto, Atsushi Fujii
- 雑誌名
  
  Procedia-Social and Behavioral Sciences
  
  巻: 27 ページ: 113-121
- 査読あり
[雑誌論文] Enhancing Lemmatization for Mongolian Using Part-of-Speech Information2011
- 著者名/発表者名
  Odbayar Chimeddorj, Atsushi Fujii
- 雑誌名
  
  Proceedings of the 5th International Universal Communication Symposium
- 査読あり
[学会発表] Wikipedia記事構造のモデル化による用語説明の自動編集2012
- 著者名/発表者名
  藤井裕也, 藤井敦, 徳永健伸
- 学会等名
  言語処理学会第18回年次大会
- 発表場所
  広島市立大学(広島県)
- 年月日
  2012-03-16
[学会発表] レビューテキスト間の類似度を用いた協調フィルタリング2012
- 著者名/発表者名
  岡田瑞穂, 藤井敦
- 学会等名
  言語処理学会第18回年次大会
- 発表場所
  広島市立大学(広島県)
- 年月日
  2012-03-15

2011 年度 実績報告書

ウィキペディアのモデル化に基づく解説型テキストの自動生成

研究代表者

藤井 敦 東京工業大学, 大学院・情報理工学研究科, 准教授 (30302433)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Circulation of Collective Intelligence through Patent s: An Early Progress Report2011

著者名/発表者名

雑誌名

[雑誌論文] Enhancing Lemmatization for Mongolian Using Part-of-Speech Information2011

著者名/発表者名

雑誌名

[学会発表] Wikipedia記事構造のモデル化による用語説明の自動編集2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] レビューテキスト間の類似度を用いた協調フィルタリング2012

著者名/発表者名

学会等名

発表場所

年月日

2011 年度実績報告書

藤井敦東京工業大学, 大学院・情報理工学研究科, 准教授 (30302433)