2020 Fiscal Year Annual Research Report
Project/Area Number |
19H04133
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
篠田 浩一 東京工業大学, 情報理工学院, 教授 (10343097)
|
Co-Investigator(Kenkyū-buntansha) |
井上 中順 東京工業大学, 情報理工学院, 准教授 (10733397)
岩野 公司 東京都市大学, メディア情報学部, 教授 (90323823)
宇都 有昭 東京工業大学, 情報理工学院, 助教 (90345356)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 深層学習 / 音声認識 / 話者認識 / 話者分離 / 感情認識 |
Outline of Annual Research Achievements |
前年度に「(A)音韻性と雑音の分離」と「(B)音韻性と話者性の分離」について、ある程度の性能向上が達成されたため、今年度はこれらを活用して、「(D)音源分離」の応用に着手した。より具体的には、これまで開発してきた波形ベースの音声信号処理システムをベースに、複数の話者の音声を分離する音源分離のフレームワークをまず構築した。そして、「(A)音韻性と雑音の分離」の成果をもとに、音源から雑音を除去する仕組みをこのシステムに追加し、雑音の影響に対して頑健な音声分離システムを構築した。既存のデータベースに雑音を重畳したデータを構築し、それを用いて評価を行った。従来法に比べ有意に高い性能を得た。この成果は、信号処理関連の国際会議IEEE APSIPA 2021に採択され、発表した。さらに「(E)言語認識、感情認識」において、まず感情認識に着手した。ここでは、まず、「(B)音韻性と話者性の分離」の成果に基づき、音声から音韻性と話者性を分離する、disentanglement(もつれをほどく)のフレームワークを構築し、残された成分を入力として感情の認識を行うシステムを開発する。今年度は、既存のデータベースを用いたベースラインを構築した。disentanglementには、オートエンコーダー(自己符号化器)を利用した声質変換を用いる方法を採用し、実装を行った。最終年度に評価を行う予定である。評価には、感情認識の分野で広く用いられているIEMOCAPデータベースを用いる予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
新型コロナの影響で、研究協力者(博士課程学生)が離籍したため、担当した話者認識関連の進捗が遅れた。また、その分の謝金および計算機使用料を2021年度に繰り越し、研究を継続した。その結果、ほぼ2020年度の計画は達成できた。
|
Strategy for Future Research Activity |
引き続き「(E)言語認識、感情認識」における「感情認識」に取り組む。すでに、基本方針は策定済みであり、今後、その実装・評価を行う予定である。また、最後の課題「(G) マルチマイクの音源分離」に着手し、その方式開発および性能評価を行う。
|
Research Products
(3 results)