複数のオームデータを統合解析する機械学習技術の開発
Project/Area Number |
06F06755
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Single-year Grants |
Section | 外国 |
Research Field |
Bioinformatics/Life informatics
|
Research Institution | Kyoto University |
Principal Investigator |
馬見塚 拓 Kyoto University, 化学研究所, 教授
|
Co-Investigator(Kenkyū-buntansha) |
WAN Raymond 京都大学, 化学研究所, 外国人特別研究員
|
Project Period (FY) |
2006 – 2008
|
Project Status |
Completed (Fiscal Year 2008)
|
Budget Amount *help |
¥2,300,000 (Direct Cost: ¥2,300,000)
Fiscal Year 2008: ¥600,000 (Direct Cost: ¥600,000)
Fiscal Year 2007: ¥1,200,000 (Direct Cost: ¥1,200,000)
Fiscal Year 2006: ¥500,000 (Direct Cost: ¥500,000)
|
Keywords | ゲノム / マイクロアレイ / 最小全域木 / 情報検索 / グラフカット / 生命科学文献 / 機械学習 / 医薬生命科学文献 |
Research Abstract |
ゲノムやプロテオームという言葉は、対応する生体分子の総称として使用される。一例は遺伝子(gene)に対する総称ゲノム(genome)である。このような総称から、例えばゲノムデータと言った場合には、遺伝子に関する網羅的な情報を指す。それらは、遺伝子配列、遺伝子発現、遺伝子発現制御および遺伝子同士の相関といった多様な情報を含む。同様にタンパク質に対してプロテオームさらにはプロテオームデータが挙げられ、このように多様な情報それぞれをオームデータと呼ぶ。本研究の目的は、このような様々なオームデータを利用することにより、一つのデータのみからでは得難い、遺伝子をはじめ生体分子に関するより高次の情報を効率的に抽出する技術を開発することである。本年度は、昨年度に引き続き、オームデータ全体というよりもむしろ、各オームデータに対する処理技術の構築を行った。研究内容は主に2つである。まず、生命科学文献に対する高精度な情報検索手法の構築である。既存の情報検索手法では、単語の頻度や分布が考慮されるが、単語の共起が考慮されることは少ない。そこで共起単語に着目した手法の構築を行い、その性能評価を重点的に行った。次に、ゲノムデータの一つとして著名なマイクロアレイ発現データから実験条件の関係性を最小全域木(Minimum Spanning Tree)として効率的に表現するソフトウェアを開発した。この際、実験条件が多い場合には木が大きくなるため適度な大きさの木が必要となるが、この目的には、グラフクラスタリング等で使用されるグラフカットを利用していることが特徴である。このソフトウェアをWWWから使用可能なように実装した。現在、論文投稿中であり、今後この成果を公開する予定である。
|
Report
(3 results)
Research Products
(6 results)