2021 Fiscal Year Annual Research Report
Solving the cocktail party problem using deep learning
Project/Area Number |
18K19819
|
Research Institution | Osaka University |
Principal Investigator |
北澤 茂 大阪大学, 生命機能研究科, 教授 (00251231)
|
Project Period (FY) |
2018-06-29 – 2022-03-31
|
Keywords | カクテルパーティー効果 / 深層学習 |
Outline of Annual Research Achievements |
私たちは、大勢の人が話しているパーティーでも相手の言うことを聞き取れる。脳はどのようにして声を聴き分けているのか。本研究の第一段階 では、多層人工神経回路を教師付学習によって声の弁別を行うように訓練し、第二段階では、同時に複数の話者が発する音声刺激をヒト被験者に提示した際の脳活動を計測して、人工神経回路の応答と比較する計画であった。しかし、コロナ禍が障害となって第二段階のヒトを対象とするデータ取得が実施できなかった。そこで、最終年度においては第一段階に立ち戻り、教師付学習に頼らずに、「重なった音声信号から1つを選んで注意を向ける機構を自律的に人工神経回路に獲得させる」という一段階高度な問題に挑戦した。画像への注意が定義できる人工神経回路(vision transformer, Dosovitskiyら2020 )に、音信号をスペクトログラムとして入力して、さらに自然な注意を自律的に獲得することが知られる学習法(ラベルなし自己蒸留法, Caronら2021)を適用して、得られる情報量を最大化する自律学習を行わせた。得られたaudio-transformerに環境音データベースの音を入力して、classification token最上層の384個の人工神経の活動の分布を調べたところ、環境音のラベルごとにきれいなクラスターを作ることが明らかになった。つまり、ラベルなしの自律学習によって、環境音をヒトと同じように「聞き分ける」ようにtransformerが育っていた。さらに、データベースの音を2つ重ねて入力したところ、2つの音にそれぞれ「注意」を払う「ヘッド」がclassification tokenの4層目に獲得されていた。環境音を複数の対象として「認識」してそのいずれかに「注意」を向ける機構が、ラベルなし学習で自律的に獲得できることが示された。このaudio-transformerは「カクテルパーティ問題」の謎を解くための有力な神経モデルとなるだろう。
|