2009 Fiscal Year Annual Research Report
Project/Area Number |
17017037
|
Research Institution | National Institute of Genetics |
Principal Investigator |
大久保 公策 National Institute of Genetics, 生命情報・DDBJ研究センター, 教授 (40233069)
|
Keywords | ゲノム / 情報工学 / マイクロアレイ / 遺伝子 / 生体生命情報学 |
Research Abstract |
データの解釈と情報抽出の二つのアプリケーションを想定し辞書やオントロジーの自動構築法を開発してきました。 1) ドメインを限定した解剖パタン辞書の作成: ESTのライブラリ記述を集め臓器組織単位に分類するパターン辞書は非常に原始的なサンプルの一部を手作業で分類しバターン辞書を作る原始的な方法で作成しましたがヒトサンプルに対し80%の分類感度を持ちます。同じ分類機は練習サンプルとは独立のデータセットであるほかの哺乳類のデータおよびマイクロアレイデータのサンプル記述に対しても同程度に有効であることが明らかになりました。 対象ドメインを限定すればオントロジーや辞書の完全性を求めるばかりでなく対象課題を限定して概念の粒度や概念の分布を生かす方法も実用上選択枝とすべきであると思われます。 2) 教科書の用語分布とトピック分布を用いた分野別意味空間の作成とその文書整理データ解釈への利用(BOB):教科書の目次と索引データを用いてトピック表現と専門用語間の内部および相互の関係を表現した行列は新しい分野に対する索引用語の収集と用語の意味的な関係測定を行う便利な方法です。ドメインを限定すれば人手で丹精に作る内包定義的な外延関係は作ることができますが、ラケットとボールなどのトピカルな関係は木構造では表現できません。したがって多カテゴリで表現される生命系文書の操作には統計的手法が今後も有効であると考え、150冊の教科書用語リストおよび項目を関連情報とともにダウンロードできるサイトをもうけ研究の再利用性を高めました。
|