2004 Fiscal Year Annual Research Report
大規模日本語・英語文書データに対する概念検索と検索結果の可視化手法の研究
Project/Area Number |
16500057
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
青野 雅樹 豊橋技術科学大学, 工学部, 教授 (00372540)
|
Keywords | 概念検索 / クラスタリング / 検索質問拡張 |
Research Abstract |
今年度は、大規模な日本語データの概念検索手法を中心に研究を行った。活動的には、国立情報学研究所が主催するNTCIR-5の特許タスクへの参加と、そのNTCIRの特許データを用いた新しい検索性能向上手法の研究開発を行った。 前者のNTCIR-5では、平成16年10月に行われた特許タスク説明会に参加し、特許タスクの概要を把握するとともに、1993年から2002年までの10年間の特許データ(約400万件の特許文書データ)を入手した。平成16年11月に公開された(同年12月〆の)ドライランの10個の先願特許検索タスクに対してエントリーし、結果を提出した。初参加のこともあり、ドライランの結果は予想以上に厳しかった。フォーマルランは4月に公開される予定である。 後者の新しい検索性能向上手法に関しては、双クラスタリング(co-clustering)と呼ばれる、文書クラスタと単語クラスタを同時に生成できるクラスタリング手法を前処理として適用した。具体的には、クラスタ数をいろいろな粒度(たとえば、32,64,128,256,…など)で変化させ、かつクラスタリングの初期値によるバラツキを抑えるために同一粒度で複数回の双クラスタリングを行い、その後平滑化アルゴリズムを開発し、実装した。このアルゴリズムの出力は、「クラスタ粒度階層構造」と名づけたデータ構造で、ユーザから検索質問が入力されたら、クラスタ粒度階層構造を用いて検索質問拡張を行うものである。同時に、その性能評価を行った。結果は、従来手法(LSIによる次元削減手法や素朴なベクトル空間モデルによる手法)に比べて良い性能を示した。この手法に関して論文を書き、DEWS2005(第16回データ工学ワークショップ:長崎)の対話(含ポスター)セッションに採録された。発表は平成17年2月28日〜3月1日に行った。一方、第2回Webインテリジェンス研究会にも投稿した。こちらは3月24日に大阪大学にて発表を行った。
|
Research Products
(3 results)