2010 Fiscal Year Annual Research Report
ウィキペディアのモデル化に基づく解説型テキストの自動生成
Project/Area Number |
22300050
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
藤井 敦 東京工業大学, 大学院・情報理工学研究科, 准教授 (30302433)
|
Co-Investigator(Kenkyū-buntansha) |
徳永 健伸 東京工業大学, 大学院・情報理工学研究科, 教授 (20197875)
|
Keywords | World Wide Web / ウィキペディア / 情報検索 / 自然言語処理 / 用語説明 / 説明の観点 / 機械学習 |
Research Abstract |
科学技術や文化の発展によって新しい用語が次々と生み出されている.用語を調べるツールとして「検索エンジン」と「事典」がある.両ツールの長所を統合することを目的として,ウェブ情報や特許情報から事典コンテンツ(用語の説明や関連語などを収録)を自動構築することを目的とする.具体的には,ウィキペディアをモデル化することで,一般のオンラインテキスト集合から,ウィキペディアの記事に似た形式の解説型テキストを自動生成する.本研究には以下に示す2つの段階がある.(1)ウィキペディアの記事集合を解析して,「用語説明モデル(人間が用語を説明する仕組み)」を機械学習する.(2)用語説明モデルを用いて,ウェブ上のオンラインテキストから解説型テキストを編集する.上記(1)について,ウィキペディアから用語の種類ごとに「観点」の集合を抽出し,頻出する単語や表現を観点ごとに機械学習する手法を提案した.ウィキペディアの記事が「セクション(節)」によって構造化されている点に着目し,セクション名を観点として使用する.例えば,「動物」に関する記事を大量に収集してセクション名の出現分布を分析すると,「生態」や「形態」のように「動物」を説明する際によく使われる観点を抽出することができる.上記(2)について,ある用語(例えば「りんご病」)に関する記述が与えられたときに,「りんご病」が「病名」であり,かっ当該テキストが「りんご病」の「治療」に関する記述であることを特定することができる.さらに,説明としてのスコアも計算される.「りんご病」について検索エンジン等で収集されたテキスト集合があれば,「りんご病」に関して多面的な説明情報を提供することができる.しかし,ウィキペディアから「動物」や「植物」のような一般的な用語のカテゴリを特定することは技術的に容易ではない.今後はこうした問題に取り組む必要がある.
|
Research Products
(3 results)