2005 Fiscal Year Annual Research Report
大規模日本語・英語文書データに対する概念検索と検索結果の可視化手法の研究
Project/Area Number |
16500057
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
青野 雅樹 豊橋技術科学大学, 工学部, 教授 (00372540)
|
Keywords | 概念検索 / クラスタリング / オントロジー / ベクトル空間モデル / 情報可視化 |
Research Abstract |
今年度は、大規模なデータとして、特許だけでなく、Web上のシラバスデータ・音楽嗜好データ・新聞・Webニュース記事などに対象を拡張し、概念検索のために前年度開発した「クラスター粒度階層構造」の展開と、コア技術の拡張、ならびに検索結果の可視化の要素技術となりうる「わかりやすい」視覚化技術のプロトタイプの開発を行った。また、これらの技術に関して学会等で発表を行った。以下、上記の細目に関して代表的なものを列挙する。 (1)特許データの概念検索:特許データ(400万文書)に関しては、国立情報学研究所主催のNTCIR-5の特許タスクに「TUT-K」という名称で参加した。ドライランは昨年度(2004年)の12月に実行していたが、1,000課題でのフォーマルランは5〜6月に実施し、期限内に提出を行った。また、今年度(2005年)12月6〜9日に開催されたNTCIR-5 Workshop Meeting(東京)に出席し、ポスターセッションで発表を行った。国際学会に関しては、NTCIR-5の他、AIRS2005(Second Asian Information Retrieval Symposium 2005)に論文投稿し、採択され、(2005年)10月に韓国で開催された当学会で発表を行った。この論文はSpringerから出版された書籍に掲載された。 (2)Web上のシラバスの情報探索:上述の特許のデータに関して、我々は「ベクトル空間モデル」を採用しており、文書×キーワードの行列データで概念検索を行っている。この行列の次元数が非常に大きい(実際は10万次元程度)ので、これをいかにわかりやすく可視化するかが、ひとつのキーポイントとなる。このために、いきなり10万次元を対象としないで、数10次元でのデータの効果的な可視化方法を、Web上のシラバスデータをベクトルでモデル化して行った。最終的には3種類の可視化方法を試行した。具体的には、リスト表示・マトリックス表示・スパイダーチャート表示の3種類である。特に次元数が30次元程度の場合、スパイダーチャートの有効性を実証することができた。 (3)音楽嗜好データの概念的類似度判定:概念検索の別角度からのアプローチとして、現在着目されているOWL(Web Ontology Language)を用いて、概念、概念間の関係を表現し、これをもとに類似度を定義して検索するアプローチも試みた。この実験では個人の音楽嗜好データを、その人ごとの(階層的な)オントロジーで表現し、類似するオントロジー構造を持つ人を検索し、情報推薦を行うところまで実装した。 上記の(1)は国際学会2回発表を、(2)と(3)に関しては、国内学会でそれぞれ1回ずつ発表をおこなった。
|
Research Products
(6 results)