2014 年度実施状況報告書

文字列解析のための統計理論とその計算生化学への応用

研究課題

研究課題/領域番号	26610037
研究機関	京都大学
研究代表者	小谷野仁京都大学, 医学(系)研究科(研究院), 助教 (10570989)
研究分担者	林田守広京都大学, 化学研究所, 助教 (40402929)
研究期間 (年度)	2014-04-01 – 2017-03-31
キーワード	文字列 / 確率論 / 統計学 / 機械学習 / 計算生物学
研究実績の概要	[1] これまでデータと言えば、数や数ベクトルが大部分を占めていたが、近年、計算機科学や生物学において、テキストデータや生物配列など、大量の文字列データが生成されるようになり、文字列データの統計的な解析方法が、様々な領域で必要とされてきている。数データに対する統計学は、確率論に基づいて厳密に構築されている。これと同様に、テキストマイニングの手法やバイオインフォマティクスにおける生物配列解析の方法に対しても、文字列の集合上の確率論に基づいた新しい方法の開発や既存の方法の体系化が、今後求められるようになるだろう。 [2] このような問題意識から、本年度、我々は、小谷野と彼の以前の共同研究者が展開した、あるアルファベット上の文字列の全体がなす位相半群上の確率論を拡張した。 [3] [2] で得られた結果を応用して、文字列の位相半群上で動作する学習機械の理論を構築し、文字列データの識別方法を提案して、その漸近的な最適性を示した。 [4] また、文字列の位相半群上で混合モデルとそれに対する EM アルゴリズムの理論を構築し、それに基づいた文字列データの教師なしクラスリング方法を提案し、その精度を漸近理論の枠組みで検討した。 [5] アミノ酸配列を用いたタンパク質間相互作用の予測問題に [3] で述べた方法を応用して、実際のデータ解析におけるその有用性を示した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本年度は、「研究実績の概要」欄で述べたように、(i) 文字列の位相半群上の確率論の拡張、(ii) (i) で得られた新しい結果を応用した、文字列の位相半群上で動作する学習機械の理論の構築、(iii) 文字列の位相半群上の混合モデルと EM アルゴリズムの理論の構築、及び (iv) (ii) で提案した文字列データの識別方法の、計算生化学上の問題への応用に取り組めたため。
今後の研究の推進方策	[1] 本年度は、「研究実績の概要」欄の [4] で述べた、文字列の位相半群上の混合モデルと EM アルゴリズムの理論に基礎を置く、文字列データの教師無しクラスタリングの方法を、計算生物学に応用することにより、実際のデータ解析におけるその有用性を立証し、生物学的に新しい知見を得る研究に取り組む。 [2] また、必要な確率論上の結果を準備した上で、文字列データに対するデータ同化法を構築する研究に取り組む。この方法は、来年度、集団生物学の問題に応用する。
次年度使用額が生じた理由	投稿している論文がアクセプトされた場合の掲載料に備えて研究費を残していたが、年度内にはアクセプトに至らなかったため。
次年度使用額の使用計画	投稿している論文の来年度の掲載料として使用する。

研究成果
(8件)

すべて 2015 2014

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (6件)

[雑誌論文] Archaeal beta diversity patterns under the seafloor along geochemical gradients2014
- 著者名/発表者名
  Koyano, H., Tsubouchi, T., Kishino, H., and Akutsu, T.
- 雑誌名
  
  Journal of Geophysical Research G (Biogeosciences)
  
  巻: 119 ページ: 1770-1788
- DOI
  10.1002/2014JG002676
- 査読あり
[雑誌論文] Measuring the similarity of protein structures using image local feature descriptors SIFT and SURF2014
- 著者名/発表者名
  Hayashida, M., Koyano, H., and Akutsu, T.
- 雑誌名
  
  2014 8th International Conference on Systems Biology (ISB)
  
  巻: - ページ: 167-171
- 査読あり
[学会発表] 文字列クラスタリングのための Laplace 様混合モデルに対する EM アルゴリズム2015
- 著者名/発表者名
  小谷野仁, 林田守広
- 学会等名
  日本情報処理学会第 77 回全国大会
- 発表場所
  京都大学
- 年月日
  2015-03-17 – 2015-03-19
[学会発表] Probability theory on a topological monoid of strings and its application to statistical machine learning2014
- 著者名/発表者名
  Koyano, H. and Hayashida, M.
- 学会等名
  International Conference on Recent Advances in Pure and Applied Mathematics
- 発表場所
  Antalya, Turkey
- 年月日
  2014-11-06 – 2014-11-09
[学会発表] Measuring the similarity of protein structures using image local feature descriptors SIFT and SURF2014
- 著者名/発表者名
  Hayashida, M., Koyano, H., and Akutsu, T.
- 学会等名
  The 8th International Conference on Systems Biology and the 4th Translational Bioinformatics Conference
- 発表場所
  Qingdao, China
- 年月日
  2014-10-24 – 2014-10-27
[学会発表] Probability theory on a topological monoid of strings and its application to machine learning2014
- 著者名/発表者名
  Koyano, H.
- 学会等名
  Sweden-Kyoto Symposium co-organized by Uppsala University, Stockholm University, Royal Institute of Technology, Karolinska Institute, and Kyoto University
- 発表場所
  Stockholm, Sweden
- 年月日
  2014-09-11 – 2014-09-12
[学会発表] 文字列の距離空間上の確率論とその機械学習への応用2014
- 著者名/発表者名
  小谷野仁, 林田守広, 阿久津達也
- 学会等名
  日本応用数理学会 2014 年度年会
- 発表場所
  政策研究大学院大学
- 年月日
  2014-09-03 – 2014-09-05
[学会発表] 文字列の距離空間上の最大マージン識別器とそのタンパク質科学への応用2014
- 著者名/発表者名
  小谷野仁, 林田守広, 阿久津達也
- 学会等名
  日本情報処理学会「数理モデル化と問題解決研究会」,「バイオ情報学研究会」及び日本電子情報通信学会「ニューロコンピューティング研究会」,「情報論的学習理論と機械学習研究会」合同研究会
- 発表場所
  沖縄科学技術大学院大学
- 年月日
  2014-06-25 – 2014-06-27

2014 年度 実施状況報告書

文字列解析のための統計理論とその計算生化学への応用

研究代表者

小谷野 仁 京都大学, 医学(系)研究科(研究院), 助教 (10570989)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Archaeal beta diversity patterns under the seafloor along geochemical gradients2014

著者名/発表者名

雑誌名

DOI

[雑誌論文] Measuring the similarity of protein structures using image local feature descriptors SIFT and SURF2014

著者名/発表者名

雑誌名

[学会発表] 文字列クラスタリングのための Laplace 様混合モデルに対する EM アルゴリズム2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Probability theory on a topological monoid of strings and its application to statistical machine learning2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Measuring the similarity of protein structures using image local feature descriptors SIFT and SURF2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Probability theory on a topological monoid of strings and its application to machine learning2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 文字列の距離空間上の確率論とその機械学習への応用2014

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 文字列の距離空間上の最大マージン識別器とそのタンパク質科学への応用2014

著者名/発表者名

学会等名

発表場所

年月日

2014 年度実施状況報告書

小谷野仁京都大学, 医学(系)研究科(研究院), 助教 (10570989)