研究分担者 |
波多野 賢治 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (80314532)
天笠 俊之 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (70314531)
植村 俊亮 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (00203480)
渡邊 正裕 国立特殊教育総合研究所, 教育工学研究部, 研究員 (80321595)
加藤 弘之 国立情報学研究所, 研究開発部, 助手 (10321580)
|
研究概要 |
欧米ではすでにゲノムデータの表現書式としてのXML(eXtensible Markup Language)の有用性が認識されており,TML,BioDOM,GEMLなどの開発が進められている.本研究では,インターネット上の拡張可能な標準データ書式であるXMLを利用し,遺伝子機能データの体系化と検索システムの開発を行うことを目的とする. XMLで記述されている使いやすいゲノムデータベースを実現するためには,次の二つの問題点を解決する必要がある.一つめは,XMLデータベースの構築する際に,DTDの変更に対して頑健なスキーマを定義する必要がある点である.たとえば,ショウジョウバエゲノムのアノテーションをGenome Annotation Markup Elements(GAME)と呼ばれるXML言語で表現したデータに見られるように,ゲノム情報を記述するXMLデータは実験の進展や解析データの追加に伴い,DTDが頻繁に変更される.そこで,本研究では,DTD情報に依存せずにXMLデータを格納できるような関係スキーマを開発し,さらにXPath問合せから対応するSQL間合せへの変換アルゴリズムを開発した. 二つ目の点は,XQueryのような形式的な言語ではなく,現在のサーチエンジン程度に簡便な問合せインタフェースを持ち,しかもXMLのような構造化文書の利点を活用した検索手法が必要である点である.そこで,問合せとして与えられたキーワード集合に適合する部分文書を探索するためのアルゴリズムを開発した.開発したアルゴリズムは,文書構造を利用するものと部分文書のベクトル情報を利用するものの二種類がある.
|