2006 Fiscal Year Annual Research Report
複数のオームデータを統合解析する機械学習技術の開発
Project/Area Number |
06F06755
|
Research Institution | Kyoto University |
Principal Investigator |
馬見塚 拓 京都大学, 化学研究所, 教授
|
Co-Investigator(Kenkyū-buntansha) |
WAN Raymond 京都大学, 化学研究所, 外国人特別研究員
|
Keywords | ゲノム / マイクロアレイ / 機械学習 / 情報検索 / 医薬生命科学文献 |
Research Abstract |
ゲノムやプロテオームという言葉は、対応する生体分子の総称として使用される。一例は遺伝子(gene)に対する総称ゲノム(genome)である。このような総称から、例えばゲノムデータと言った場合には、遺伝子に関する網羅的な情報を指す。それらは、遺伝子配列、遺伝子発現、遺伝子発現制御および遺伝子同士の相関といった多様な情報を含む。 同様にタンパク質に対してプロテオームさらにはプロテオームデータが挙げられ、このように多様な情報それぞれをオームデータと呼ぶ。本研究の目的は、このような様々なオームデータを利用することにより、一つのデータのみからでは得難い、遺伝子をはじめ生体分子に関するより高次の情報を効率的に抽出する技術を開発することである。本年度は、オームデータ全体というよりもむしろ、各オームデータに対する処理技術の構築を行った。研究内容は主に2つにまとめられる。まず、ゲノムデータの一つとして著名なマイクロアレイ発現データの効率的な分類手法を構築した。マイクロアレイデータは遺伝子発現データであり、数千から数万に上る遺伝子に対して、事例数はせいぜい数十程度しかなく、いわゆる高次元データとして知られる。分類手法として機械学習では決定木が代表的だが、事例をクラスに分ける時に、決定木はクラス内事例数のみに着目しクラス内の事例の分布を考慮しない。一方、事例数が少ない状況では、単純な数のみならず分布を考慮することが有効である。そこで、分布を考慮できる分類(分割)基準を有する決定木を構築し、その有効性を実際のマイクロアレイデータを使用して実証した。2つめは、生命科学文献に対する情報検索手法の構築である。既存の情報検索手法では、単語の頻度や分布が考慮されるが、単語の共起が考慮されることは少ない。そこで共起単語に着目した手法の構築を開始した。これはまだ進行中の研究である。
|
Research Products
(2 results)