2007 Fiscal Year Annual Research Report
Webテキストからの知識抽出支援システムに関する研究
Project/Area Number |
17200007
|
Research Institution | The University of Tokyo |
Principal Investigator |
中川 裕志 The University of Tokyo, 情報基盤センター, 教授 (20134893)
|
Co-Investigator(Kenkyū-buntansha) |
米澤 明憲 東京大学, 情報理工学系研究科, 教授 (00133116)
田浦 健次朗 東京大学, 情報理工学系研究科, 教授 (90282714)
二宮 崇 東京大学, 情報基盤センター, 教授 (20444094)
吉田 稔 東京大学, 情報基盤センター, 教授 (40361688)
清田 陽司 東京大学, 情報基盤センター, 教授 (10401316)
|
Keywords | WWW / 知識 / テキスト / マイニング / 用例検索 / 名寄せ / 用語抽出 / 機械学習 |
Research Abstract |
本研究においては,膨大な量のWebページから,利用者が興味を持つ分野の知識を記述するテキストを抽出し表示するシステムを開発した。具体的には,以下のようなシステムを提案しプロトタイプおよび実用的なシステムを開発した。(1)既開発の用語抽出システム「言選Web」を用いて,そのページを特徴つける重要語を抽出し,その定義,あるいは複数の重要語の間の関係を知ることを目的とし,Webからの用例検索システムKiwiを利用して,それらの重要語を含む用例文を多数抽出するシステムを開発した。Webを直接に検索する従来の用例検索システムを,高速化するために,既存クローラで収集したWebページを対象にする新たな用例検索システムを開発し,UT-Kiwiとして公開した。(2)上記の用例検索の精度の向上を目的とし,同一名が異なる実体を参照する場合,別名が同一実体を参照する場合を解消するWeb名寄せのメカニズムを提案し,試作システムNayoseを構築し性能改善を行った。(3)Webテキスト情報からの知識抽出の基礎となる機械学習アルゴリズムを開発した。(4)Webテキストの活用を狙って,Web上の英文テキストから穴埋め4択問題を自動生成するシステムSakumonを開発した。
|
Research Products
(11 results)