研究課題/領域番号 |
26610037
|
研究機関 | 京都大学 |
研究代表者 |
小谷野 仁 京都大学, 医学(系)研究科(研究院), 助教 (10570989)
|
研究分担者 |
林田 守広 京都大学, 化学研究所, 助教 (40402929)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 文字列 / 確率論 / 統計学 / 機械学習 / 計算生物学 |
研究実績の概要 |
[1] これまでデータと言えば、数や数ベクトルが大部分を占めていたが、近年、計算機科学や生物学において、テキストデータや生物配列など、大量の文字列データが生成されるようになり、文字列データの統計的な解析方法が、様々な領域で必要とされてきている。数データに対する統計学は、確率論に基づいて厳密に構築されている。これと同様に、テキストマイニングの手法やバイオインフォマティクスにおける生物配列解析の方法に対しても、文字列の集合上の確率論に基づいた新しい方法の開発や既存の方法の体系化が、今後求められるようになるだろう。 [2] このような問題意識から、本年度、我々は、小谷野と彼の以前の共同研究者が展開した、あるアルファベット上の文字列の全体がなす位相半群上の確率論を拡張した。 [3] [2] で得られた結果を応用して、文字列の位相半群上で動作する学習機械の理論を構築し、文字列データの識別方法を提案して、その漸近的な最適性を示した。 [4] また、文字列の位相半群上で混合モデルとそれに対する EM アルゴリズムの理論を構築し、それに基づいた文字列データの教師なしクラスリング方法を提案し、その精度を漸近理論の枠組みで検討した。 [5] アミノ酸配列を用いたタンパク質間相互作用の予測問題に [3] で述べた方法を応用して、実際のデータ解析におけるその有用性を示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は、「研究実績の概要」欄で述べたように、(i) 文字列の位相半群上の確率論の拡張、(ii) (i) で得られた新しい結果を応用した、文字列の位相半群上で動作する学習機械の理論の構築、(iii) 文字列の位相半群上の混合モデルと EM アルゴリズムの理論の構築、及び (iv) (ii) で提案した文字列データの識別方法の、計算生化学上の問題への応用に取り組めたため。
|
今後の研究の推進方策 |
[1] 本年度は、「研究実績の概要」欄の [4] で述べた、文字列の位相半群上の混合モデルと EM アルゴリズムの理論に基礎を置く、文字列データの教師無しクラスタリングの方法を、計算生物学に応用することにより、実際のデータ解析におけるその有用性を立証し、生物学的に新しい知見を得る研究に取り組む。 [2] また、必要な確率論上の結果を準備した上で、文字列データに対するデータ同化法を構築する研究に取り組む。この方法は、来年度、集団生物学の問題に応用する。
|
次年度使用額が生じた理由 |
投稿している論文がアクセプトされた場合の掲載料に備えて研究費を残していたが、年度内にはアクセプトに至らなかったため。
|
次年度使用額の使用計画 |
投稿している論文の来年度の掲載料として使用する。
|