2006 Fiscal Year Annual Research Report
大規模日本語・英語文書データに対する概念検索と検索結果の可視化手法の研究
Project/Area Number |
16500057
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
青野 雅樹 豊橋技術科学大学, 工学部, 教授 (00372540)
|
Keywords | 概念検索 / クラスタリング / オントロジー / 次元削減 / ベクトル空間モデル / 情報可視化 |
Research Abstract |
昨年度では、大規模データとして、特許データ(350万件)のほかに、Web上のニュース記事を概念検索の対象に含めたが、最終年度である今年度は研究課題にもある英語のデータとして、共有する概念の体系化として普及が期待されているOWL(Web Ontology Language)を使った英語での文書データ処理、概念処理を行った。また、日本語特許データに関しては、引き続き、NTCIR-6タスクに参加し、平成18年未にしめきられたフォーマル・ランに大学としては唯一参加し続けている。NTCIR-6プロジェクト(国立情報学研究所主催)に関しては、平成19年5月に学会発表(英語)の予定である。以下、本期間に行った細目に関して代表的なものを列挙する。 (1)特許データの概念検索:NTCIト6特許タスクの中で、真に大規模なデータ(350万件の特許文書)で動作する実用的な概念検索技術として「スケーラブルLSI(Latent Semantic Indexing)」手法を開発し、システム実装を行った。本手法の結果は、NTCIR-6(平成19年5月国立情報学研究所で開催予定)で発表予定であり、既に英語での論文を提出している。 (2)オントロジー・アラインメントの研究:概念データの間に関係をWWWコンソーシアムで標準化されているOWL(WebOntology Language)で記述し、2つの類似するオントロジーがOWLで与えられたとき、その間のアラインメント(整合)を自動解決するアルゴリズムを開発し、それを論じた論文が国際会議で採択され発表した。このアルゴリズムを改良し、大規模な実用的な概念オントロジーで動作するアルゴリズムも新たに開発した。このアライインメントが大規模データでも動作することで、概念的に類似するデータがOWLで与えられた場合も検索という応用に利用できるという意味で、大きな成果を得た。 (3)テキストデータの可視化、検索結果の可視化研究:大規模テキストデータを効果的に可視化するために、多次元空間の3次元空間への写像による可視化表現を開発し、更にこれをクラスターの探索に利用する技術を言及したものを国際論文誌に投稿していたが、採択され掲載された。また、テキスト中に現れる地名、数値データを効果的に可視化する手法を開発した。数値データの可視化は、国立情報学研究所(NII)で開始されたパイロットタスクである「動向情報の要約と可視化ワークショッブ」で発表した。更に、検索キーワード(クエリ)を入力して得られた大量の検索結果に、階層的なクラスタリングを施して、効果的にグループ化して表示する手法を開発した。これらは現在、研究室のWebページで公開申であり、論文投稿の準備中である。
|
Research Products
(6 results)