2022 Fiscal Year Annual Research Report
Research on retriving speech and acoustic dark data
Project/Area Number |
22H03639
|
Allocation Type | Single-year Grants |
Research Institution | The University of Tokyo |
Principal Investigator |
高道 慎之介 東京大学, 大学院情報理工学系研究科, 助教 (90784330)
|
Co-Investigator(Kenkyū-buntansha) |
井本 桂右 同志社大学, 理工学部, 准教授 (90802116)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Keywords | 音声認識合成 / 音響認識合成 / ダークデータ / コーパス |
Outline of Annual Research Achievements |
本研究課題は,音声音響ダークデータから,超大規模かつ広範利用できる音声音響コーパスを構築する方法論を扱う.その実現にあたり,(1) 音声音響ダークデータを自動取得するWeb工学技術の開発,(2)ダークデータからその利用可能性を定量化する機械学習技術の開発,(3)大規模データに対する効率的なラベリング法,(4)種々の音声音響認識合成における評価を実施する.
本年度は,(a) 音声ダークデータからの音声合成コーパスの構築,(b) 半ダークデータからのお環境音合成法に取り組んだ.(a) については,Webから自動取得した音データの内,音声合成に資するデータの自動取得を試みた.話者ラベルの自動取得,音声ーテキストの対応度合いの自動化,学習データとしての質の自動化を試見た結果,2000人以上の話者の音声合成をかのうにすることを明らかにした.(b) については,環境音を合成するためのテキスト表現法およびモデル学習法について検討した.結果として,査読付き国際会議3本,国内会議4本,招待講演1本の実績を得た.
本年度の実績により,音声音響ダークデータからコーパスを構築するための方法論およびモデル学習基盤を構築できたと言える.これにより,音声音響コーパスおよびモデルを広く社会に提供する準備がある程度整った.本年度に実施していないタスクでの検証は必要だが,これを踏まえ来年度はコーパスおよびモデルを社会インフラとして公開していく予定である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
予定されていた内容を順調に実施している.
|
Strategy for Future Research Activity |
計画書通りに遂行する.
|