2014 Fiscal Year Research-status Report
文字列解析のための統計理論とその計算生化学への応用
Project/Area Number |
26610037
|
Research Institution | Kyoto University |
Principal Investigator |
小谷野 仁 京都大学, 医学(系)研究科(研究院), 助教 (10570989)
|
Co-Investigator(Kenkyū-buntansha) |
林田 守広 京都大学, 化学研究所, 助教 (40402929)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | 文字列 / 確率論 / 統計学 / 機械学習 / 計算生物学 |
Outline of Annual Research Achievements |
[1] これまでデータと言えば、数や数ベクトルが大部分を占めていたが、近年、計算機科学や生物学において、テキストデータや生物配列など、大量の文字列データが生成されるようになり、文字列データの統計的な解析方法が、様々な領域で必要とされてきている。数データに対する統計学は、確率論に基づいて厳密に構築されている。これと同様に、テキストマイニングの手法やバイオインフォマティクスにおける生物配列解析の方法に対しても、文字列の集合上の確率論に基づいた新しい方法の開発や既存の方法の体系化が、今後求められるようになるだろう。 [2] このような問題意識から、本年度、我々は、小谷野と彼の以前の共同研究者が展開した、あるアルファベット上の文字列の全体がなす位相半群上の確率論を拡張した。 [3] [2] で得られた結果を応用して、文字列の位相半群上で動作する学習機械の理論を構築し、文字列データの識別方法を提案して、その漸近的な最適性を示した。 [4] また、文字列の位相半群上で混合モデルとそれに対する EM アルゴリズムの理論を構築し、それに基づいた文字列データの教師なしクラスリング方法を提案し、その精度を漸近理論の枠組みで検討した。 [5] アミノ酸配列を用いたタンパク質間相互作用の予測問題に [3] で述べた方法を応用して、実際のデータ解析におけるその有用性を示した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は、「研究実績の概要」欄で述べたように、(i) 文字列の位相半群上の確率論の拡張、(ii) (i) で得られた新しい結果を応用した、文字列の位相半群上で動作する学習機械の理論の構築、(iii) 文字列の位相半群上の混合モデルと EM アルゴリズムの理論の構築、及び (iv) (ii) で提案した文字列データの識別方法の、計算生化学上の問題への応用に取り組めたため。
|
Strategy for Future Research Activity |
[1] 本年度は、「研究実績の概要」欄の [4] で述べた、文字列の位相半群上の混合モデルと EM アルゴリズムの理論に基礎を置く、文字列データの教師無しクラスタリングの方法を、計算生物学に応用することにより、実際のデータ解析におけるその有用性を立証し、生物学的に新しい知見を得る研究に取り組む。 [2] また、必要な確率論上の結果を準備した上で、文字列データに対するデータ同化法を構築する研究に取り組む。この方法は、来年度、集団生物学の問題に応用する。
|
Causes of Carryover |
投稿している論文がアクセプトされた場合の掲載料に備えて研究費を残していたが、年度内にはアクセプトに至らなかったため。
|
Expenditure Plan for Carryover Budget |
投稿している論文の来年度の掲載料として使用する。
|
Research Products
(8 results)