2000 Fiscal Year Annual Research Report
XMLによる遺伝子機能データの体系化と検索システムの開発
Project/Area Number |
12208032
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
吉川 正俊 奈良先端科学技術大学院大学, 情報科学研究科, 助教授 (30182736)
|
Co-Investigator(Kenkyū-buntansha) |
波多野 賢治 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (80314532)
天笠 俊之 奈良先端科学技術大学院大学, 情報科学研究科, 助手 (70314531)
植村 俊亮 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (00203480)
渡邊 正裕 国立特殊教育総合研究所, 教育工学研究部, 研究員 (80321595)
加藤 弘之 国立情報学研究所, 研究開発部, 助手 (10321580)
|
Keywords | ゲノム / XML / 構造化文書 / 問合せ処理 |
Research Abstract |
欧米ではすでにゲノムデータの表現書式としてのXML(eXtensible Markup Language)の有用性が認識されており,TML,BioDOM,GEMLなどの開発が進められている.本研究では,インターネット上の拡張可能な標準データ書式であるXMLを利用し,遺伝子機能データの体系化と検索システムの開発を行うことを目的とする. XMLで記述されている使いやすいゲノムデータベースを実現するためには,次の二つの問題点を解決する必要がある.一つめは,XMLデータベースの構築する際に,DTDの変更に対して頑健なスキーマを定義する必要がある点である.たとえば,ショウジョウバエゲノムのアノテーションをGenome Annotation Markup Elements(GAME)と呼ばれるXML言語で表現したデータに見られるように,ゲノム情報を記述するXMLデータは実験の進展や解析データの追加に伴い,DTDが頻繁に変更される.そこで,本研究では,DTD情報に依存せずにXMLデータを格納できるような関係スキーマを開発し,さらにXPath問合せから対応するSQL間合せへの変換アルゴリズムを開発した. 二つ目の点は,XQueryのような形式的な言語ではなく,現在のサーチエンジン程度に簡便な問合せインタフェースを持ち,しかもXMLのような構造化文書の利点を活用した検索手法が必要である点である.そこで,問合せとして与えられたキーワード集合に適合する部分文書を探索するためのアルゴリズムを開発した.開発したアルゴリズムは,文書構造を利用するものと部分文書のベクトル情報を利用するものの二種類がある.
|
-
[Publications] Masatoshi Yoshikawa,Toshiyuki Amagasa,Dao Dinh Kha,Kenji Hatano,Hiroko Kinutani,Noboru Matoba,Junko Tanoue,Masahiro Watanabe and Shunsuke Uemura: "On Two Query Interfaces for Genome XML Databases"IEEE Workshop on XML-Enabled Wide Area Search in Bioinformatics (XEWA), League City, Texas, December 13-14, 2000. (2000)
-
[Publications] Toshiyuki Amagasa,Masatoshi Yoshikawa and Shunsuke Uemura: "A Data Model for Temporal XML Documents"Proc.of the 11th International Conference on Database and Expert Systems Applications (DEXA2000) London - Greenwich, United Kingdom, September 4-8, 2000 Lecture Notes in Computer Science (LNCS). Springer-Verlag,Vol.1873. 334-344 (2000)