2010 Fiscal Year Annual Research Report
Project/Area Number |
22700137
|
Research Institution | The University of Tokyo |
Principal Investigator |
吉田 稔 東京大学, 情報基盤センター, 助教 (40361688)
|
Keywords | テキストマイニング / 接尾辞配列 / クラスタリング / 数値検索 / ディリクレ過程混合モデル |
Research Abstract |
本年度は、テキスト中の数値表現を活用するための基盤技術の開発と、その応用として用いるテキストマイニングタスクに関する研究を遂行した。基盤技術としては、テキスト中に言葉とともに出現する数値の範囲を自動的に推定するために、確率モデルに基づき、クラスタ数を自動的に推定する高速クラスタリング手法の開発を行い、さらに、数値範囲を用いた検索を行えるような、テキスト全文検索を拡張した索引付けを行う手法の研究を行った。提案手法は、与えられたテキストを改変することなく、少量の追加索引構造を用いるだけで、高速な数値範囲検索機能を実現する。また、この索引構造を用いることで、既存の連接文字列マイニングアルゴリズムを、数値範囲を含む文字列のマイニングに拡張することができる。これにより、「数値語彙」(数値範囲を含む語彙)の獲得が可能となった。異なる文字列が同じ数値を表す「数値異表記」の問題に関しては、コーパスを改変せず、追加索引構造の作成アルゴリズムを拡張することで、柔軟に対処するアルゴリズムの開発を行った。コーパスとしてはWikipedia、東京大学Webページを取得し、上記アルゴリズムが適用できることを確認した。開発したシステムは、数値範囲という概念を用いることで、数字文字列を通常の文字列と同様に扱いつつ数値としての性質も利用できるという汎用性の高いシステムとなっており、他のシステムからの利用も容易である。そのような他のテキストマイニングタスクの一例として、「検索における同姓同名問題」にも取り組み、文脈情報を適切に重み付けするための手法に関する研究を行った。
|
Research Products
(6 results)