2005 Fiscal Year Annual Research Report
Webテキストからの知識抽出支援システムに関する研究
Project/Area Number |
17200007
|
Research Institution | The University of Tokyo |
Principal Investigator |
中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)
|
Co-Investigator(Kenkyū-buntansha) |
米澤 明憲 東京大学, 情報理工学系研究科, 教授 (00133116)
辻井 潤一 東京大学, 大学院情報学環, 教授 (20026313)
田浦 健次朗 東京大学, 情報理工学系研究科, 助教授 (90282714)
吉田 稔 東京大学, 情報基盤センター, 助手 (40361688)
清田 陽司 東京大学, 情報基盤センター, 助手 (10401316)
|
Keywords | WWW / Trie / n-gram / 情報検索 / インデキシング / 用語抽出 / 自然言語処理 / 用例 |
Research Abstract |
(1)多言語用例検索システム:Webテキストからの知識抽出の目的で、検索エンジンAltaVistaに入力した質問テキストを含む結果をTrie構造化し、類似文字列をまとめあげ、その頻度とlog(文字列長)の積の大きさに順に並べて表示する用例検索システムKiwiを開発し、Webで公開した。例えば、take itというフレーズに後続する頻出文字列として、easy, back, with, to the limit, off, away, or leave it,などの成句を得ることができる。Kiwiは、統計的文字列処理システムなので、任意の言語に対応できる。実際、日本語、英語、中国語、フランス語などで有益な用例を検索できることを確認した。このシステムはWorld Wide Web会議にて論文が採択された。 (2)カタカナ異表記抽出:Webテキストの検索においてカタカナ表記された外来語を検索するとき、「ギリシャ」と「ギリシア」のような複数の異表記が問題となる。異表記を扱えないと、検索エンジンでのカタカナ語による検索では、本来見つかるべき結果を見逃すことになる。そこで、Web上にあるテキスト情報、具体的には英日辞書サイトからの情報収集を行い、その結果を利用して異表記集合を取り出した。さらに、このデータを解析して、異表記を作り出しやすい文字列ペアを重み付けして抽出した。この文字列ペアを利用して、与えられたカタカナ語が異表記かどうかを判定するシステムを構築した。90%以上の精度で異表記を認識できた。このシステムについての論文がACM SIGIR会議にて採択された。 (3)その他:(3-1)Web上に公開されているテキストから、文末の言い換え表現を自動抽出した。(3-2)既開発の用語抽出システム「言選Web」を情報論的に精密なパープレキシティによって精緻化した。
|
Research Products
(6 results)