2012 Fiscal Year Annual Research Report

ウィキペディアのモデル化に基づく解説型テキストの自動生成

Research Project

Project/Area Number	22300050
Research Institution	Tokyo Institute of Technology
Principal Investigator	藤井敦東京工業大学, 情報理工学(系)研究科, 准教授 (30302433)
Co-Investigator(Kenkyū-buntansha)	徳永健伸東京工業大学, 情報理工学(系)研究科, 教授 (20197875)
Project Period (FY)	2010-04-01 – 2013-03-31
Keywords	World Wide Web / ウィキペディア / 自然言語処理 / 情報検索 / 用語説明 / 説明の観点 / 機械学習 / クラスタリング
Research Abstract	ウィキペディアの登場によって人手で統制された事典情報が大規模化する一方で，それよりもはるかに大量の統制されていない情報がウェブに存在する．本研究の目的は，ウィキペディアをモデル化して，未統制の情報から解説型テキストを自動生成することである．本研究には以下に示す2つの段階がある．(1)ウィキペディアの記事集合を解析して，「用語説明モデル（人間が用語を説明する仕組み）」を機械学習する．(2)用語説明モデルを用いて，ウェブ上のオンラインテキストから解説型テキストを自動編集する．上記(1)における本研究の特長は，用語の種類ごとに説明に必要な観点が異なる点に着目した点にある．例えば，「病名」に関する用語は「症状」や「治療」といった観点で説明されるのに対して，「動物」に関する用語は「生態」や「分布」といった観点で説明される．ウィキペディア記事の目次項目（セクション）を観点と見なして，用語の種類と観点の対応関係を学習する．ウィキペディアの記事集合をクラスタリングすることで，用語の種類に相当する「用語クラスタ」を自動的に特定する．また，ウィキペディアのカテゴリ情報を利用して，用語クラスタの名称を自動的に特定する．さらに，ウィキペディア記事に関する種々の情報を素性として用いることで，クラスタリングの精度を向上させる．上記(2)では，ある用語（例えば「りんご病」）に関する記述が与えられたときに，「りんご病」が「病名」であり，かつ当該テキストが「りんご病」の「治療」に関する記述であることを特定する．「りんご病」について検索エンジン等で収集されたテキスト集合があれば，「りんご病」に関して多面的な説明情報を提供することができる．約5000件の用語を対象とした実験によって，提案手法の有効性を種々の観点から評価した．
Current Status of Research Progress	Reason 24年度が最終年度であるため、記入しない。
Strategy for Future Research Activity	24年度が最終年度であるため、記入しない。

Research Products
(7 results)

All 2012 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (5 results)

[Journal Article] Effects of Document Clustering in Modeling Wikipedia-style Term Descriptions2012
- Author(s)
  Atsushi Fujii, Yuya Fujii, Takenobu Tokunaga
- Journal Title
  
  Proceedings of the 8th International Conference on Language Resources and Evaluation
  
  Volume: なし Pages: 2543-2546
- Peer Reviewed
[Journal Article] Enhancing Lemmatization for Mongolian and its Application to Statistical Machine Translation2012
- Author(s)
  Odbayar Chimeddorj, Atsushi Fujii
- Journal Title
  
  Proceedings of the 10th Workshop on Asian Language Resources
  
  Volume: なし
- Peer Reviewed
[Presentation] レビューテキストを対象とした評価条件の抽出手法
- Author(s)
  中山祐輝, 藤井敦
- Organizer
  言語処理学会第19回年次大会発表論文集
- Place of Presentation
  名古屋大学東山キャンパス（愛知）
[Presentation] 造語の過程に基づく派生オノマトペの抽出
- Author(s)
  吉成祐人, 藤井敦
- Organizer
  言語処理学会第19回年次大会発表論文集
- Place of Presentation
  名古屋大学東山キャンパス（愛知）
[Presentation] 直喩と比較による間接表現を利用した用語説明の自動生成
- Author(s)
  伊藤玄暉, 椛沢直樹, 藤井敦
- Organizer
  言語処理学会第19回年次大会発表論文集
- Place of Presentation
  名古屋大学東山キャンパス（愛知）
[Presentation] 料理レシピを対象としたアウトライン型自動要約
- Author(s)
  西原弘真, 苅米志帆乃, 藤井敦
- Organizer
  情報処理学会第89回デジタル・ドキュメント研究会第110回情報基礎とアクセス研究会合同研究会
- Place of Presentation
  東洋大学白山キャンパス（東京）
[Presentation] 料理レシピテキストを対象とした構造解析の高精度化
- Author(s)
  苅米志帆乃, 藤井敦
- Organizer
  電子情報通信学会データ工学研究会
- Place of Presentation
  国立情報学研究所（東京）

2012 Fiscal Year Annual Research Report

ウィキペディアのモデル化に基づく解説型テキストの自動生成

Principal Investigator

藤井 敦 東京工業大学, 情報理工学(系)研究科, 准教授 (30302433)

Reason

Research Products

[Journal Article] Effects of Document Clustering in Modeling Wikipedia-style Term Descriptions2012

Author(s)

Journal Title

[Journal Article] Enhancing Lemmatization for Mongolian and its Application to Statistical Machine Translation2012

Author(s)

Journal Title

[Presentation] レビューテキストを対象とした評価条件の抽出手法

Author(s)

Organizer

Place of Presentation

[Presentation] 造語の過程に基づく派生オノマトペの抽出

Author(s)

Organizer

Place of Presentation

[Presentation] 直喩と比較による間接表現を利用した用語説明の自動生成

Author(s)

Organizer

Place of Presentation

[Presentation] 料理レシピを対象としたアウトライン型自動要約

Author(s)

Organizer

Place of Presentation

[Presentation] 料理レシピテキストを対象とした構造解析の高精度化

Author(s)

Organizer

Place of Presentation

藤井敦東京工業大学, 情報理工学(系)研究科, 准教授 (30302433)