2000 Fiscal Year Annual Research Report

大規模知識処理のための技術統合に関する研究開発

Research Project

Project/Area Number	12680373
Research Institution	Japan Advanced Institute of Science and Technology
Principal Investigator	佐藤賢二北陸先端科学技術大学院大学, 知識科学研究科, 助教授 (10215783)
Keywords	ゲノムデータベース / サーチエンジン / データマイニング / 相関ルール発見 / 専門用語 / オントロジー
Research Abstract	近年のWebの隆盛により、伝統的な全文検索技術を応用してWebページに対するキーワード検索を高速に行ういわゆるサーチエンジンが急激に発達してきた。一方、大量のデータを抱える企業や大学などでは、文書の類似性に基づいて迅速に知識発見を行なうシステムに対して高い需要がある。これらの技術は、近年企業内で扱うデータ量の飛躍的増大により、どちらも非常に注目され、各種の製品開発やソリューションの提案が活発に行われている。現在これら2種類の技術はほぼ独立に研究開発が行われているが、つきつめればどちらも大量のデータ集合に対する操作および処理(検索、特徴抽出、および特徴からの規則発見)であると言える。これらを融合し、大規模データに対して高速に知識処理を行うことは、大多数の企業で求められていながら未だにこれといった解が見られないのが現状である。本研究では一般的なサーチエンジンの運用中に必ず構築されるインデックス情報をマイニング用のデータすなわち知識発見の源泉と見倣し、大規模データに対する高速な知識処理を目指す。また、対象となるデータとしてはゲノムデータベースに大量に蓄積されている20種1000万におよぶテキスト情報を用い、知識発見手法としては相関ルール発見を持ちいる。本年度ではまず、一般的なサーチエンジンを用いてゲノムデータベース全体を高速に検索するSTAGシステム(既に構築ずみ)に対し、相関ルール発見機能を組み込んだ。この相関ルール発見機能では全文検索用のインデックスから抽出したクロスリファレンス情報を用いており、インデックスの更新に合わせて新しい知識を発見することが可能である。また、サーチエンジンの検索結果として得られるエントリ集合に関する相関ルール発見だけを効率良く行なうことにより、Webでサービスしても十分な応答速度(通常は数秒)で知識発見を行なうことができた。また、高精度な類似文書検索を実現するために、ゲノムデータベースから専門用語と思われるものを大量に抽出し、一種のオントロジーを構築した。

Research Products
(2 results)

All Publications (2 results)

[Publications] 柳生拓也: "Toward Automatic Construction of Extensional Ontology from Genome Databases"Genome Informatics Workshop 2000. 442-443 (2000)
[Publications] 坂井武夫: "Toward Automatic Recognition of Field Description Syntax and Parser Generation for Genome Databases"Genome Informatics Workshop 2000. 444-445 (2000)