研究課題/領域番号 |
23710231
|
研究機関 | 東京大学 |
研究代表者 |
岩崎 渉 東京大学, 大気海洋研究所, 講師 (50545019)
|
キーワード | バイオインフォマティクス / データベース / ゲノム / ネットワーク / データ解釈 / データ可視化 / テキストマイニング / オーミクス |
研究概要 |
爆発的なペースでオーミクス実験データが蓄積し続ける中、研究者がそれらのデータを論文や様々なデータベースの内容に照らし合わせつつ仮説を構築するステップが生命科学研究における深刻なボトルネックとなっている。この「解釈」に関して現在事実上の標準となっている手法としては,Gene Ontology中で統計学的に有意に関連するタームを発見するものがよく用いられている。しかし、Gene Ontologyで表現できる情報はごく限られたものであり、「すでによく知られた知識のオーミクスデータによる確認」を超えて新たな知識を得る上で限界があることが問題となっている。本研究では、論文データベースおよび近年様々なプロジェクトで整備されてきたデータベース群のデータをネットワークの形式で表現することで、膨大なオーミクス実験データの解釈を支援するための情報技術開発を行っている。平成24年度は、英文中からの遺伝子名の抽出(固有表現認識)技術を医学生物学分野の文献データベースPubMedに含まれる1000万件を超える英文アブストラクトに対して適用し、網羅的に遺伝子名の抽出および遺伝子IDとの対応付けを行った注釈付き文献データベースを構築した。さらに、このデータベースに対して、オーミクスデータから得られる遺伝子IDの一覧を入力することでそれらの遺伝子IDセットに統計的に有意に相関するキーフレーズをテキスト集合中から抽出するインターフェースを実装した。これにより、オーミクスデータを文献データベースと網羅的に対応づけオーミクスデータの解釈を加速するプロトタイプとなるシステムの構築に成功した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成23年度は東日本大震災およびそれに伴う解析サーバの停電があったため研究の遂行がやや遅れたが、平成24年度は平成23年度に達成できなかった点から順に研究を推進し、順調に遅れを取り戻しつつある。
|
今後の研究の推進方策 |
順調に研究推進の遅れを取り戻しつつあり、このまま当初計画通りに研究を推進することを目指す。
|
次年度の研究費の使用計画 |
一部計算機購入や研究発表旅費にかかる繰り越しが生じたが、順次、平成24年度に達成できなかった点に必要な研究費を使用する。
|