2022 Fiscal Year Annual Research Report
Real-time MRI database of articulatory movements of Japanese
Project/Area Number |
20H01265
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
前川 喜久雄 大学共同利用機関法人人間文化研究機構国立国語研究所, 研究系, 客員教授 (20173693)
|
Co-Investigator(Kenkyū-buntansha) |
定藤 規弘 生理学研究所, システム脳科学研究領域, 教授 (00273003)
斎藤 純男 拓殖大学, 外国語学部, 教授 (10225740)
籠宮 隆之 大学共同利用機関法人人間文化研究機構国立国語研究所, 言語資源開発センター, プロジェクト非常勤研究員 (10528269)
竹本 浩典 千葉工業大学, 先進工学部, 教授 (40374102)
石本 祐一 ものつくり大学, 技能工芸学部, 准教授 (50409786)
吉永 司 豊橋技術科学大学, 工学(系)研究科(研究院), 助教 (50824190)
北村 達也 甲南大学, 知能情報学部, 教授 (60293594)
菊池 英明 早稲田大学, 人間科学学術院, 教授 (70308261)
桂田 浩一 東京理科大学, 理工学部情報科学科, 教授 (80324490)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | リアルタイムMRI / 調音音声学 / 調音運動 / データベース / 日本語 / 音声合成 / モンゴル語 |
Outline of Annual Research Achievements |
本研究の主要な目標であるリアルタイムMRI撮像技術による日本語の調音運動データベースは「リアルタイムMRI調音運動データベース」第1版としてウェブ上でのデータ検索を可能にした(https://rtmridb.ninjal.ac.jp/)。1年前に公開した試験公開版と比較すると話者数は10名から22名に増えて当初目標を達成するとともに、音声に重畳して収録されていたMRI装置の稼働ノイズをデジタル音声処理によってほぼ消去することに成功している。さらに上記ウェブサイトで検索対象としている動画データを国立情報学研究所の音声言語コンソーシアムから公開した。以上によって音声研究のインフラ整備に関する当初目的は達成済みとなった。ウェブ版はこれまでに1000名以上の異なりユーザーによって利用されており、そのうち1割程度がリピーターである。 データベースの公開作業以外には、近い将来におけるデータベースのバージョンアップを念頭において、①これまでに開発してきた音声器官輪郭抽出技術の効率化と、②MRI画像には映らないが音声研究上重要な門歯の形状を推定してMRI動画中に埋め込む手法に関する技術開発を行い、いずれも実用レベルの技術を開発することができた。またリアルタイムMRI動画からの音声合成技術についても研究を進めて、自然性の高い音声の合成に成功した。 そのほかにはモンゴル語母音調和に関する知覚実験を実施した。また音声合成研究のために音素バランス文である「ATR503文」のリアルタイムMRIデータ収録を開始した。これは合成音声の品質向上のために必要とされるものであるが同時に連続音声に生じる調音結合現象の音声学的分析のためにも利用する予定である。これまでに男女各2名のデータを収録し、データ公開に必要とされる知財関係の処理を終了した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
研究計画申請時に主要な目標として記載した話者21名分のリアルタイムMRI調音運動データベースを1年先倒しで公開することができた。特殊なデータであるにもかかわらず、異なり人数で1000名以上の訪問者があり、そのうち1割程度がリピーターとしてデータを繰り返し利用している。日本以外に米国、中国、台湾、韓国、ドイツなどの国にユーザーが多い。またリアルタイムMRIデータから調音運動を計測するためのデータブラウジング環境もgithub上で公開している。 その他、当初計画に記載した音声器官輪郭の自動抽出技術も確立することができた。さらに当初計画では挑戦的な応用課題として記載していたリアルタイムMRIデータからの音声合成(MRI to Speech)に関しても自然性の高い音声の合成に成功した。 本研究の成果は国際学会での発表を経て、複数の国際的に著名な査読論文誌(Journal of Acoustical Society of America, Journal of International Phonetic Association)に採録されている。前者はマスコミで報道されて反響をよんだ、後者はWikipedia英語版の日本語音声のページの参考文献として記載されている。
|
Strategy for Future Research Activity |
最終年度には歯列データを埋め込んだ動画を作成する予定であるが、これを最終年度中に公開するかどうかは検討中である。できればウェブ上では検索可能にしたい。 現在公開しているデータは単独モーラ、バイモーラ、孤立単語など、実験的性格の強い発話であるが、2022年度から収録を開始した「ATR503文」データは、より自然な連続発話のデータであり、音声合成のために従来より広い音韻環境をカバーしている。このデータも将来的な一般公開を念頭においてデータ整備を進めるが、本研究期間内の公開は想定していない。特に音響的な音素セグメンテーション情報と結合することによって、調音運動データと音響データの相互参照が可能なデータベースの実現をめざす。 音声合成に関しては、既にかなりの達成をみたMRI to Speechからさらに一歩進んだ目標としてText to MRIの実現を試みる。つまり音素列を与えると調音運動の動画が生成されるシステムの研究である。 音声学に関しては、現在公開済みのデータを活用して、日本語調音音声学の全面的な見直しを進める。これまでに、撥音、ワ行子音、「ヒ」と「シ」の子音の比較についての分析を公開しており、ラ行子音、ハ行子音、ダ行子音についての分析が進行中である。将来的にはこれらの成果を一冊の著作にまとめて公刊することを想定している。
|