研究課題
今年度は、大規模なデータとして、特許だけでなく、Web上のシラバスデータ・音楽嗜好データ・新聞・Webニュース記事などに対象を拡張し、概念検索のために前年度開発した「クラスター粒度階層構造」の展開と、コア技術の拡張、ならびに検索結果の可視化の要素技術となりうる「わかりやすい」視覚化技術のプロトタイプの開発を行った。また、これらの技術に関して学会等で発表を行った。以下、上記の細目に関して代表的なものを列挙する。(1)特許データの概念検索:特許データ(400万文書)に関しては、国立情報学研究所主催のNTCIR-5の特許タスクに「TUT-K」という名称で参加した。ドライランは昨年度(2004年)の12月に実行していたが、1,000課題でのフォーマルランは5〜6月に実施し、期限内に提出を行った。また、今年度(2005年)12月6〜9日に開催されたNTCIR-5 Workshop Meeting(東京)に出席し、ポスターセッションで発表を行った。国際学会に関しては、NTCIR-5の他、AIRS2005(Second Asian Information Retrieval Symposium 2005)に論文投稿し、採択され、(2005年)10月に韓国で開催された当学会で発表を行った。この論文はSpringerから出版された書籍に掲載された。(2)Web上のシラバスの情報探索:上述の特許のデータに関して、我々は「ベクトル空間モデル」を採用しており、文書×キーワードの行列データで概念検索を行っている。この行列の次元数が非常に大きい(実際は10万次元程度)ので、これをいかにわかりやすく可視化するかが、ひとつのキーポイントとなる。このために、いきなり10万次元を対象としないで、数10次元でのデータの効果的な可視化方法を、Web上のシラバスデータをベクトルでモデル化して行った。最終的には3種類の可視化方法を試行した。具体的には、リスト表示・マトリックス表示・スパイダーチャート表示の3種類である。特に次元数が30次元程度の場合、スパイダーチャートの有効性を実証することができた。(3)音楽嗜好データの概念的類似度判定:概念検索の別角度からのアプローチとして、現在着目されているOWL(Web Ontology Language)を用いて、概念、概念間の関係を表現し、これをもとに類似度を定義して検索するアプローチも試みた。この実験では個人の音楽嗜好データを、その人ごとの(階層的な)オントロジーで表現し、類似するオントロジー構造を持つ人を検索し、情報推薦を行うところまで実装した。上記の(1)は国際学会2回発表を、(2)と(3)に関しては、国内学会でそれぞれ1回ずつ発表をおこなった。
すべて 2005
すべて 雑誌論文 (6件)
信学技報 IEICE Technical Report DE2005-30 (2005-7)
ページ: 1-6
自然言語処理・情報学基礎合同研究会会報、2005-NL-169
ページ: 27-32
Proceedings of the Fifth NTCIR Workshop
ページ: 287-291
信学技報 IEICE Technical Report DE2005-66 (2005-7)
ページ: 7-11
第3回 WebインテリジェンスとインタラクションWI2-2005-42
ページ: 83-88
AIRS 2005 (Asia Information Retrieval Symposium), in a book : Information Retrieval Technology, Lecture Notes in Computer Science 3689 (Gary G.Lee, et al. eds.)(Springer Verlag)
ページ: 479-484