2018 Fiscal Year Annual Research Report

光遺伝学的手法を用いたcAMPシグナル操作による記憶固定メカニズムの検討

Research Project

Project/Area Number	18J14413
Research Institution	The University of Tokyo
Principal Investigator	渡邉裕亮東京大学, 薬学系研究科, 特別研究員(DC2)
Project Period (FY)	2018-04-25 – 2020-03-31
Keywords	機械学習 / パターン認識 / 行動解析 / 時系列解析
Outline of Annual Research Achievements	(1) 2 次元空間におけるパターン認識独自に撮影した自由行動下のマウス動画 (1 秒に 30 枚の連続画像) から、教師あり機械学習技術 (CNN) を用いて行動分類を試みた。マウスの行動パターン 7 つ (Climbing, Sniffing, Walking など) を実験者の主観により定め、教師信号とした。テスト用データにおいて Climbing の正認識率は 96% であった。しかしながら、Sniffing と Walking など、出力クラス所属確率が互いに拮抗し、誤認識率が比較的高い行動の組が複数あった。 (2) 時系列データにおけるパターン認識 MNIST データセット（0-9 の手書き数字 7 万枚）を利用し、機械学習モデルに 10 個の数字を学習／パターン分類させた。2 次元データである手書き数字のデータを、ベクトルに変換することで 1 次元時系列のデータセットとして扱った。機械学習モデルに LSTM (long short-term memory) および BiBlo-SAN (bi-directional block self-attention) を用いた。いずれの数字データも予測正解率は 99% を越えた。同様に、in vitro 神経活動電位データに対し、上の実験で有効性を確認した LSTM, BiBlo-SAN を用いてパターン認識を行った。潅流適用した痙攣誘導薬 Picrotoxin の濃度を教師信号として教師あり学習を行い、集合電位データを入力とし、潅流適用された Picrotoxin の濃度を学習・予測させた。MNIST データセットの際とは異なり、10 エポック（すべての学習データをそれぞれ確率的に 10 回学習した時点）までに、学習の進展が見られず、評価用データにおける予測精度はチャンスレベルを上回らなかった。
Current Status of Research Progress	Current Status of Research Progress 4: Progress in research has been delayed. Reason 機械学習技術 (VGG-19, LSTM, BiBlo-SAN) を用いて、画像データや時系列データのパターン認識を一定の水準までできることを確認した。例えば、画像データではマウスの Climbing 行動を、時系列では 2 次元手書き数字の行列データを 1 次元ベクトルと見立てたものをいずれも 98% 以上の正解率で認識させることができた。しかしながら、in vitro 神経活動電位データのように入力データが空間的、時間的に複雑になった場合には、適切にパターン認識を行うことができていない。すなわち、学習対象とするデータセットに依存して機械学習モデルが学習するための難易度が変わる。本研究で最終解析対象とするデータセットは、蛍光微小顕微鏡で撮影した数百からなる神経細胞群の数日間におよぶ、時空間的により大規模なデータである。現状で壁となっている活動電位データの解析は比較的容易と思われ、これを適切に扱うことができなければ、蛍光微小顕微鏡を利用した動物実験に移ることは困難であり、現状の進捗状況を遅れていると言わざるを得ない。
Strategy for Future Research Activity	マウスの行動認識に関しては、VGG-19 で画像認識を行った後に LSTM を組み合わせることで達成できると思われる。神経活動電位データに関しては、薬物の効果をパターン分類させるために必要な情報が時間的にどれほど長いか未知である。経験的に、LSTM は数百ステップ以上の時系列情報を記憶することができないと言われている。そのため、神経活動電位データのデータを時間的に圧縮することが一つの推進方策である。また、もう一つの方策として、ニューロン（群）の発火率や同期率が高い部分だけを解析対象とすること（てんかん発作様イベントを定義すること）で、その領域に限定して分類を行い、機械学習モデルへの負担を軽減して対処することも考えられる。しかしながら、こちらは解析におけるバイアスを作ることとなり、機械学習技術利用の強みを一部放棄していることになるため、二次的な方策とする。また、教師なし機械学習手法による異常値検知によるてんかん発作用イベント抽出、データ数の増加や、ラベル数の不均衡を考慮した損失関数の利用、ラベル付けの精度の見直し、適切なモデルの選択、ハイパーパラメータチューンニング、次元圧縮、特徴選択なども試行錯誤により適宜利用していく。