• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2011 Fiscal Year Annual Research Report

ウィキペディアのモデル化に基づく解説型テキストの自動生成

Research Project

Project/Area Number 22300050
Research InstitutionTokyo Institute of Technology

Principal Investigator

藤井 敦  東京工業大学, 大学院・情報理工学研究科, 准教授 (30302433)

Co-Investigator(Kenkyū-buntansha) 徳永 健伸  東京工業大学, 大学院・情報理工学研究科, 教授 (20197875)
KeywordsWorld Wide Web / ウィキペディア / 情報検索 / 自然言語処理 / 用語説明 / 説明の観点 / 機械学習 / クラスタリング
Research Abstract

ウィキペディアの登場によって,人手で統制された事典情報が大規模化してきた.しかし,それよりもはるかに大量の「統制されていない情報」がウェブに存在する.本研究の目的は,ウィキペディアをモデル化して,未統制のオンラインテキストから解説型テキストを自動生成することである.具体的には,ウィキペディアの記事集合を解析して「用語説明のモデル」(人間が用語を説明する仕組み)を構築し,当モデルに基づいて,一般のテキスト集合を編集して解説型テキストを合成する.本研究の特長は,用語の種類ごとに説明に必要な観点が異なる点に着目した点にある.例えば,「病名」に関する用語は「症状」や「治療」といった観点で説明されるのに対して,「動物」に関する用語は「生態」や「分布」といった観点で説明される.ウィキペディアの記事にあるセクションを観点と見なして,用語の種類と観点の対応関係を学習する.今年度の成果は以下に示す(a)~(d)の4点である.(a)従来は,用語の種類を特定するためにウィキペディアのカテゴリ情報を人手で修正して利用していた.この問題を解消するために,ウィキペディアの記事集合をクラスタリングすることで,用語の種類に相当する「用語クラスタ」を自動的に特定する手法を提案した.さらに,ウィキペディア記事に関する種々の情報を素性として用いることで,クラスタリングの精度を向上させることに成功した.(b)ウィキペディアのカテゴリ情報を利用して,用語クラスタの名称を自動的に特定する手法を提案した.(c)ウィキペディアのセクション名は著者によって異なるため,「経歴」と「略歴」のような異表記が別の観点として処理されてしまう問題があった.そこで,セクション名もクラスタリングして観点の集合を再構成する手法を提案した.(d)約5000件の用語を対象とした評価実験によって,提案手法の有効性を示した.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

種々の提案手法によって,前年度よりも高精度で用語説明を自動編集できるようになった.

Strategy for Future Research Activity

最終年度に向けて研究を総括するために,様々な観点から手法の評価を行い,将来の課題について考察を行う.

  • Research Products

    (4 results)

All 2012 2011

All Journal Article (2 results) (of which Peer Reviewed: 2 results) Presentation (2 results)

  • [Journal Article] Circulation of Collective Intelligence through Patent s: An Early Progress Report2011

    • Author(s)
      Koiti Hasida, Hidetsugu Nanba, Takashi Inui, Makoto Iwayama, Taiichi Hashimoto, Atsushi Fujii
    • Journal Title

      Procedia-Social and Behavioral Sciences

      Volume: 27 Pages: 113-121

    • Peer Reviewed
  • [Journal Article] Enhancing Lemmatization for Mongolian Using Part-of-Speech Information2011

    • Author(s)
      Odbayar Chimeddorj, Atsushi Fujii
    • Journal Title

      Proceedings of the 5th International Universal Communication Symposium

    • Peer Reviewed
  • [Presentation] Wikipedia記事構造のモデル化による用語説明の自動編集2012

    • Author(s)
      藤井裕也, 藤井敦, 徳永健伸
    • Organizer
      言語処理学会第18回年次大会
    • Place of Presentation
      広島市立大学(広島県)
    • Year and Date
      2012-03-16
  • [Presentation] レビューテキスト間の類似度を用いた協調フィルタリング2012

    • Author(s)
      岡田瑞穂, 藤井敦
    • Organizer
      言語処理学会第18回年次大会
    • Place of Presentation
      広島市立大学(広島県)
    • Year and Date
      2012-03-15

URL: 

Published: 2013-06-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi