研究課題/領域番号 |
17200007
|
研究機関 | 東京大学 |
研究代表者 |
中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)
|
研究分担者 |
米澤 明憲 東京大学, 情報理工学系研究科, 教授 (00133116)
田浦 健次朗 東京大学, 情報理工学系研究科, 助教授 (90282714)
二宮 崇 東京大学, 情報基盤センター, 講師 (20444094)
吉田 稔 東京大学, 情報基盤センター, 助手 (40361688)
清田 陽司 東京大学, 情報基盤センター, 助手 (10401316)
|
キーワード | 検索 / WWW / 機械学習 / 知識 / テキストマイニング / 用語抽出 / 半構造テキスト / ブログ |
研究概要 |
(1)高速用例検索システム:昨年度から開発している用例検索システムを高速化する目的で、有限の深さに限定したSuffix Treeのアルゴリズム開発および実装を行った。このアルゴリズムはUkkonenのアルゴリズムを基礎におくが、リンクの張り方を工夫して、treeの探索だけで元テキストの文字列を復元できる。これを文字レベルと形態素レベルの2段階に分けて実装し、それを連結することで、効率の良い文字列検索システムを実装することに成功した。 (2)高速用例検索システムの応用:昨年度から開発していた用例検索システムKiwiを航空機の機長レポートに適用するシステムを開発した。これによって、危険を未然に防ぐための知識を短時間で検索できるようになった。 (3)名寄せシステム: Webで人名や地名を検索すると同姓同名ないし同一地名だが、異なる人物、場所について記述したものが混在して検索されてしまう。この状態では、知識抽出に支障をきたす。そこで、検索された同姓同名の人のページを異なる人物ごとにクラスタリングするWeb名寄せシステム: Nayoseを開発した。このシステムでは、まず固有名詞抽出を行い、同じページ内に現れる固有名詞をベクトルとして抽出する。また、固有名詞以外にも検索質問の人名に近接して出現する名詞をベクトル化する。これらのベクトルの類似性に基づいて階層的クラスタリングを行う。このシステムの評価を行うために、複数の人名検索を行い、その結果を同一人物毎に分類した正解データを人手で開発した。これを用いてNayoseシステム評価したところ、70%近い正解率を得た。
|