2012 年度実績報告書

ウィキペディアのモデル化に基づく解説型テキストの自動生成

研究課題

研究課題/領域番号	22300050
研究機関	東京工業大学
研究代表者	藤井敦東京工業大学, 情報理工学(系)研究科, 准教授 (30302433)
研究分担者	徳永健伸東京工業大学, 情報理工学(系)研究科, 教授 (20197875)
研究期間 (年度)	2010-04-01 – 2013-03-31
キーワード	World Wide Web / ウィキペディア / 自然言語処理 / 情報検索 / 用語説明 / 説明の観点 / 機械学習 / クラスタリング
研究概要	ウィキペディアの登場によって人手で統制された事典情報が大規模化する一方で，それよりもはるかに大量の統制されていない情報がウェブに存在する．本研究の目的は，ウィキペディアをモデル化して，未統制の情報から解説型テキストを自動生成することである．本研究には以下に示す2つの段階がある．(1)ウィキペディアの記事集合を解析して，「用語説明モデル（人間が用語を説明する仕組み）」を機械学習する．(2)用語説明モデルを用いて，ウェブ上のオンラインテキストから解説型テキストを自動編集する．上記(1)における本研究の特長は，用語の種類ごとに説明に必要な観点が異なる点に着目した点にある．例えば，「病名」に関する用語は「症状」や「治療」といった観点で説明されるのに対して，「動物」に関する用語は「生態」や「分布」といった観点で説明される．ウィキペディア記事の目次項目（セクション）を観点と見なして，用語の種類と観点の対応関係を学習する．ウィキペディアの記事集合をクラスタリングすることで，用語の種類に相当する「用語クラスタ」を自動的に特定する．また，ウィキペディアのカテゴリ情報を利用して，用語クラスタの名称を自動的に特定する．さらに，ウィキペディア記事に関する種々の情報を素性として用いることで，クラスタリングの精度を向上させる．上記(2)では，ある用語（例えば「りんご病」）に関する記述が与えられたときに，「りんご病」が「病名」であり，かつ当該テキストが「りんご病」の「治療」に関する記述であることを特定する．「りんご病」について検索エンジン等で収集されたテキスト集合があれば，「りんご病」に関して多面的な説明情報を提供することができる．約5000件の用語を対象とした実験によって，提案手法の有効性を種々の観点から評価した．
現在までの達成度 (区分)	理由 24年度が最終年度であるため、記入しない。
今後の研究の推進方策	24年度が最終年度であるため、記入しない。

研究成果
(7件)

すべて 2012 その他

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (5件)

[雑誌論文] Effects of Document Clustering in Modeling Wikipedia-style Term Descriptions2012
- 著者名/発表者名
  Atsushi Fujii, Yuya Fujii, Takenobu Tokunaga
- 雑誌名
  
  Proceedings of the 8th International Conference on Language Resources and Evaluation
  
  巻: なしページ: 2543-2546
- 査読あり
[雑誌論文] Enhancing Lemmatization for Mongolian and its Application to Statistical Machine Translation2012
- 著者名/発表者名
  Odbayar Chimeddorj, Atsushi Fujii
- 雑誌名
  
  Proceedings of the 10th Workshop on Asian Language Resources
  
  巻: なし
- 査読あり
[学会発表] レビューテキストを対象とした評価条件の抽出手法
- 著者名/発表者名
  中山祐輝, 藤井敦
- 学会等名
  言語処理学会第19回年次大会発表論文集
- 発表場所
  名古屋大学東山キャンパス（愛知）
[学会発表] 造語の過程に基づく派生オノマトペの抽出
- 著者名/発表者名
  吉成祐人, 藤井敦
- 学会等名
  言語処理学会第19回年次大会発表論文集
- 発表場所
  名古屋大学東山キャンパス（愛知）
[学会発表] 直喩と比較による間接表現を利用した用語説明の自動生成
- 著者名/発表者名
  伊藤玄暉, 椛沢直樹, 藤井敦
- 学会等名
  言語処理学会第19回年次大会発表論文集
- 発表場所
  名古屋大学東山キャンパス（愛知）
[学会発表] 料理レシピを対象としたアウトライン型自動要約
- 著者名/発表者名
  西原弘真, 苅米志帆乃, 藤井敦
- 学会等名
  情報処理学会第89回デジタル・ドキュメント研究会第110回情報基礎とアクセス研究会合同研究会
- 発表場所
  東洋大学白山キャンパス（東京）
[学会発表] 料理レシピテキストを対象とした構造解析の高精度化
- 著者名/発表者名
  苅米志帆乃, 藤井敦
- 学会等名
  電子情報通信学会データ工学研究会
- 発表場所
  国立情報学研究所（東京）

2012 年度 実績報告書

ウィキペディアのモデル化に基づく解説型テキストの自動生成

研究代表者

藤井 敦 東京工業大学, 情報理工学(系)研究科, 准教授 (30302433)

理由

研究成果

[雑誌論文] Effects of Document Clustering in Modeling Wikipedia-style Term Descriptions2012

著者名/発表者名

雑誌名

[雑誌論文] Enhancing Lemmatization for Mongolian and its Application to Statistical Machine Translation2012

著者名/発表者名

雑誌名

[学会発表] レビューテキストを対象とした評価条件の抽出手法

著者名/発表者名

学会等名

発表場所

[学会発表] 造語の過程に基づく派生オノマトペの抽出

著者名/発表者名

学会等名

発表場所

[学会発表] 直喩と比較による間接表現を利用した用語説明の自動生成

著者名/発表者名

学会等名

発表場所

[学会発表] 料理レシピを対象としたアウトライン型自動要約

著者名/発表者名

学会等名

発表場所

[学会発表] 料理レシピテキストを対象とした構造解析の高精度化

著者名/発表者名

学会等名

発表場所

2012 年度実績報告書

藤井敦東京工業大学, 情報理工学(系)研究科, 准教授 (30302433)