• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2012 Fiscal Year Annual Research Report

ウィキペディアのモデル化に基づく解説型テキストの自動生成

Research Project

Project/Area Number 22300050
Research InstitutionTokyo Institute of Technology

Principal Investigator

藤井 敦  東京工業大学, 情報理工学(系)研究科, 准教授 (30302433)

Co-Investigator(Kenkyū-buntansha) 徳永 健伸  東京工業大学, 情報理工学(系)研究科, 教授 (20197875)
Project Period (FY) 2010-04-01 – 2013-03-31
KeywordsWorld Wide Web / ウィキペディア / 自然言語処理 / 情報検索 / 用語説明 / 説明の観点 / 機械学習 / クラスタリング
Research Abstract

ウィキペディアの登場によって人手で統制された事典情報が大規模化する一方で,それよりもはるかに大量の統制されていない情報がウェブに存在する.本研究の目的は,ウィキペディアをモデル化して,未統制の情報から解説型テキストを自動生成することである.本研究には以下に示す2つの段階がある.(1)ウィキペディアの記事集合を解析して,「用語説明モデル(人間が用語を説明する仕組み)」を機械学習する.(2)用語説明モデルを用いて,ウェブ上のオンラインテキストから解説型テキストを自動編集する.上記(1)における本研究の特長は,用語の種類ごとに説明に必要な観点が異なる点に着目した点にある.例えば,「病名」に関する用語は「症状」や「治療」といった観点で説明されるのに対して,「動物」に関する用語は「生態」や「分布」といった観点で説明される.ウィキペディア記事の目次項目(セクション)を観点と見なして,用語の種類と観点の対応関係を学習する.ウィキペディアの記事集合をクラスタリングすることで,用語の種類に相当する「用語クラスタ」を自動的に特定する.また,ウィキペディアのカテゴリ情報を利用して,用語クラスタの名称を自動的に特定する.さらに,ウィキペディア記事に関する種々の情報を素性として用いることで,クラスタリングの精度を向上させる.上記(2)では,ある用語(例えば「りんご病」)に関する記述が与えられたときに,「りんご病」が「病名」であり,かつ当該テキストが「りんご病」の「治療」に関する記述であることを特定する.「りんご病」について検索エンジン等で収集されたテキスト集合があれば,「りんご病」に関して多面的な説明情報を提供することができる.約5000件の用語を対象とした実験によって,提案手法の有効性を種々の観点から評価した.

Current Status of Research Progress
Reason

24年度が最終年度であるため、記入しない。

Strategy for Future Research Activity

24年度が最終年度であるため、記入しない。

  • Research Products

    (7 results)

All 2012 Other

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (5 results)

  • [Journal Article] Effects of Document Clustering in Modeling Wikipedia-style Term Descriptions2012

    • Author(s)
      Atsushi Fujii, Yuya Fujii, Takenobu Tokunaga
    • Journal Title

      Proceedings of the 8th International Conference on Language Resources and Evaluation

      Volume: なし Pages: 2543-2546

    • Peer Reviewed
  • [Journal Article] Enhancing Lemmatization for Mongolian and its Application to Statistical Machine Translation2012

    • Author(s)
      Odbayar Chimeddorj, Atsushi Fujii
    • Journal Title

      Proceedings of the 10th Workshop on Asian Language Resources

      Volume: なし

    • Peer Reviewed
  • [Presentation] レビューテキストを対象とした評価条件の抽出手法

    • Author(s)
      中山祐輝, 藤井敦
    • Organizer
      言語処理学会 第19回年次大会 発表論文集
    • Place of Presentation
      名古屋大学東山キャンパス(愛知)
  • [Presentation] 造語の過程に基づく派生オノマトペの抽出

    • Author(s)
      吉成祐人, 藤井敦
    • Organizer
      言語処理学会 第19回年次大会 発表論文集
    • Place of Presentation
      名古屋大学東山キャンパス(愛知)
  • [Presentation] 直喩と比較による間接表現を利用した用語説明の自動生成

    • Author(s)
      伊藤玄暉, 椛沢直樹, 藤井敦
    • Organizer
      言語処理学会 第19回年次大会 発表論文集
    • Place of Presentation
      名古屋大学東山キャンパス(愛知)
  • [Presentation] 料理レシピを対象としたアウトライン型自動要約

    • Author(s)
      西原弘真, 苅米志帆乃, 藤井 敦
    • Organizer
      情報処理学会 第89回デジタル・ドキュメント研究会 第110回情報基礎とアクセス研究会合同研究会
    • Place of Presentation
      東洋大学白山キャンパス(東京)
  • [Presentation] 料理レシピテキストを対象とした構造解析の高精度化

    • Author(s)
      苅米志帆乃, 藤井敦
    • Organizer
      電子情報通信学会 データ工学研究会
    • Place of Presentation
      国立情報学研究所(東京)

URL: 

Published: 2014-07-24  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi