2007 Fiscal Year Annual Research Report
Project/Area Number |
17017037
|
Research Institution | National Institute of Genetics |
Principal Investigator |
大久保 公策 National Institute of Genetics, 生命情報・DDBJ研究センター, 教授 (40233069)
|
Keywords | ゲノム / 情報工学 / マイクロアレイ / 遺伝子 / 生体生命情報学 |
Research Abstract |
教科書は(1)特定の体系知識の表現であり、限られた量の中に当該領域の全基礎知識が記憶しやすい形で配置された書物である。加えて(2)局所的な情報への案内の為に付与された目次と索引というメタデータは、教科書内容の用語分布と話題分布による空間的表現を与えている。また(3)教科書の話題構成は構造として記憶され、専門家の当該領域の情報に対する理解の枠組みを作っていると考えられる。本研究はこのような教科書の特徴に着目し、文書内容を教科書ページへの関係の強さで"索引付け"することで、形式表現でありながら人間にも理解しやすい索引が作れるという独自のアイデアに基づいている。索引データと目次データを唯一の出発材料に、外部から全く知識を導入せずに作成した用語リスト、用語関係、話題リスト、話題用語関係などの計算データを使って任意の文書内容を全目次項目との関係パタンとして人に理解できる形式的索引付けを行う方法をこれまでに確立してきた。 これまでに(1)基礎医学の主要な教科書からのメタデータの読み取りとデータベース化(2)索引情報を用いた専門用語関係のベクトルデータ化(3)質問文書の上記ベクトル空間中へのLSIによる投影を行う計算システムの構築を行ってきた。本年度は本技術の試験的利用の環境を作ることで、索引付けの重み調整や教科書データの誤り、複数の教科書中に存在する同義語のマージなどの修正を行い、さらに本システムの能力の客観的な評価を行うことを目標に研究開発を行った。本年度の成果は1000程度のPubMedアブストラクトや遺伝子機能(参考文献要旨)などのマッピングを行う計算系と、その1000程度の専門文書をマッピング結果に基づいて自動的にクラスター化し教科書目次への類似パターンとして表現する内容表現系の2つの機能を持つWEBサーバーを構築し、WEBブラウザを通じて利用できるテスト版の限定公開である。
|