研究課題
基盤研究(C)
本研究期間内の3年間で、大規模データに対する概念検索とその視覚化の研究を中心に行ってきた。大規模データとしては、350万件の特許データのほかに、LATimesニュース記事データ(英語)、毎日新聞、およびWeb上のニュース記事等を収集し、本研究の対象データとして扱った。研究の中心は、パターンが完全一致するデータの検索ではなく、概念的・意味的に類似したデータを検索できる基礎・応用技術の研究を行ってきた。本研究のコア技術として、単語と文書の共起度の高いものをクラスタリングで前処理する「共クラスタリング」と、「サンプリング粒度を段階的に変え、階層的なクラスターを作成する手法」とを統合した技術を開発・実装し、結果を国際・国内学会で発表した。クラスタリングの結果の可視化に関しても論文誌に投稿・採録された。この要素技術ではサンプリングを用いたため、マイナーなクラスターを見逃す問題点がある。研究期間の最終年度では、サンプリングを用いることなく、マイナーなクラスターを逃さない手法を開発した。具体的には、大規模データ全体を文書のオーバーラップを許して精緻にカテゴライズし、「潜在的意味インデキシング」(LSI法)と呼ばれる次元削減手法を各カテゴリに反復的に適用し階層型インデックスを作る技術を開発・実装した。検索の精度的には、最初に開発した「階層粒度クラスター」に基づく概念検索よりも2倍程度高い結果を得ることが出来た。本研究テーマでは、大規模データのモデルとして、「ベクトル空間モデル」を採用したため、特徴量をベクトル化できるものであれば、日本語・英語の区別を意識することなく、また、文書データ以外のメディアデータにも適用できる。実際3次元形状のデータ・コレクションで概念検索(類似検索)が行えることを示し、世界最高レベルの検索性能を達成した。この検索エンジンは研究室のWebで一般に公開している。
すべて 2007 2006 2005 2004
すべて 雑誌論文 (29件) 図書 (1件)
情報処理学会第69回全国大会(早稲田大学) 4T-4
ページ: I-585-I-586
言語処理学会第13回年次大会
ページ: 408-411
電子情報通信学会・東海支部・Web公開http://www.takagi.i.is.nagoya-u.ac.jp/ieice/
ページ: 1
International Journal of Computer Science and Network Security Vol6, No. 10
ページ: 1-9
The Semantic Web-ASWC 2006 (in a book 'Lecture Notes in Computer Science 4185' from Springer-Verlag)
ページ: 212-218
Proc. ACM SIGIR (Special Interest Group on Information Retrieval) Vol. 29
ページ: 683-684
Knowledge and Information Systems (Springer-Verlag) Vol.10, No.3
ページ: 295-313
情報処理学会第68回全国大会(工学院大学) 3M-5
ページ: 2-301-2-302
情報処理学会第68回全国大会(工学院大学) 4N-6
ページ: 2-453-2-454
情報処理学会第68回全国大会(工学院大学) 3P-5
ページ: 3-205-3-206
情報処理学会第68回全国大会(工学院大学) 7P-2
ページ: 3-271-3-272
電子情報通信学会、Webインテリジェンスとインタラクション、IEICE SIG Notes, WI2-2006-83
ページ: 89-94
International Journal of Computer Science and Network Security Vol. 16,No.10
Knowledge and Information Systems Vol.10, No.3
The Semantic Web - ASWC 2006, Lecture Notes in Computer Science 4185(R. Mizoguchi et al. eds)(Springer)
Information Retrieval Technology, Lecture Notes in Computer Science 3689(Gary G. Lee, et al. eds.)(Springer)
ページ: 479-483
DEWS2005,第16回データ工学ワークショップ
ページ: 8
情報処理学会第67回全国大会(電通大学) 2U-8
ページ: 3-199-3-200
情報処理学会第67回全国大会(電通大学) 3U-8
ページ: 3-215-3-216
情報処理学会第67回全国大会(電通大学) 4W-5
ページ: 3-259-3-260
電子情報通信学会、Webインテリジェンスとインタラクション、IEICE SIG Notes, WI2-2005-18
ページ: 43-48
信学技報 IEICE Technical Report DE2005-30 (2005-7)
ページ: 1-6
信学技報 IEICE Technical Report DE2005-66 (2005-7)
ページ: 7-11
電子情報通信学会、Webインテリジェンスとインタラクション、IEICE SIG Notes, WI2-2005-42
ページ: 83-88
自然言語処理・情報学基礎合同研究会会報、2005-NL-169
ページ: 27-32
AIRS 2005 (Asia Information Retrieval Symposium), in a book "Information Retrieval Technology", Lecture Notes in Computer Science 3689 (Gary G. Lee, et al. eds.) (Springer Verlag)
ページ: 479-484
Proceedings of the Fifth NTCIR Workshop
ページ: 287-291
応用数理(岩波書店) Vol. 15, No. 1
ページ: 53-57
Survey of Text Mining(Michael W. Berry ed.)(Springer)
ページ: 103-122