3D mouth shape recognition for sound pronunciation training

Research Project

Project/Area Number	20K11220
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 59010:Rehabilitation science-related
Research Institution	Tokyo City University
Principal Investigator	包躍東京都市大学, 情報工学部, 教授 (20283103)
Project Period (FY)	2020-04-01 – 2024-03-31
Project Status	Granted (Fiscal Year 2021)
Budget Amount *help	¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000) Fiscal Year 2022: ¥260,000 (Direct Cost: ¥200,000、Indirect Cost: ¥60,000) Fiscal Year 2021: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000) Fiscal Year 2020: ¥2,340,000 (Direct Cost: ¥1,800,000、Indirect Cost: ¥540,000)
Keywords	発声訓練 / ３次元口形 / 点群データ / 認識 / 機械学習 / 母音 / 言葉 / 区切り / 母音認識
Outline of Research at the Start	高度難聴でも発声訓練で発声と読唇術を習得すれば、普通にコミュニケーションできる。発声訓練では指導者の「口の形」を見て模倣するのが伝統的な方法であるが、生まれる時から耳が聞こえない者にとってはとても辛い。発声訓練をサポートするシステムが発表されたが、従来の指導者による訓練で最も有効だとされている「口の形」からの訓練ができない。「口の形」からの訓練を可能にするには、口形を正確に認識する必要がある。口形認識技術に機械読唇があるが、認識率が低い、顔の動きに対応できない、照明変化に弱いため、利用できない。本研究では上記問題を伴わない口形認識技術を開発し、口形から指導可能な革新的発声訓練システムを目指す。
Outline of Annual Research Achievements	本年度の研究実績としては、下記の５つである。 ①発音する被験者の唇の領域を自動的に切り出し、その３次元点群の形状を入力することで、点群データのモデルのクラス分けが行える機械学習用のモデルを作成した。これを用いて日本語の母音識別実験を行い、被験者の唇の領域の３次元点群のみでの日本語母音識別法を確立させた。 ②本年度の研究で確立した機械学習による日本語発音時の母音識別法及びこの方法を用いたさまざまな検証実験の実験結果をまとめ、専門分野の査読付き国際ジャーナル（IF2.7）に投稿し、2022年5月に掲載された。 ③口の形状による日本語母音認識で得られた知見を基に、本研究の目的を達成するための口の形状による日本語の言葉の認識を行うための調査研究を始めた。言葉に対する認識は音声や唇の形状による認識が考えられるが、音声による言葉の認識では、英語に対する研究が多いが、日本語に対する研究があまり行われていない。また唇の形状による言葉の認識では、英語に対しては音声認識と一緒に使う研究が行われているが、日本語に対しては研究例が見当たらない。 ④③の調査結果に踏まえ、まず機械学習を用いた音声による言葉の認識に関連するさまざまな手法について調査を行い、基礎実験などで確認し、どのように利用できるのかを検討した。 ⑤基礎実験より、口の形を用いる日本語の言葉に対する認識では、言葉と言葉の区切りを認識することが重要であることが分かったので、まずは言葉と言葉の区切りを認識できるようにする方法の調査及びその関連実験を行った。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本年度はこれまでの研究で確立した機械学習による日本語発音時の母音識別法及びこの方法を用いたさまざまな検証実験の実験結果をまとめ、専門分野の査読付き国際ジャーナル（IF2.7）に投稿し、査読結果による改良なども行い、掲載させた。また、口の形状による日本語母音認識を発展させ、口の形状による日本語の言葉の認識を行うための調査研究を始めた。口の形を用いる日本語の言葉に対する認識では、言葉と言葉の区切りを認識することが重要であることが分かったので、まずは言葉と言葉の区切りを認識できるようにする方法の調査及びその関連実験を行った。
Strategy for Future Research Activity	今年度の成果により、母音識別の領域から言葉の識別の領域に入った。今後はまず日本語での口の形と言葉に関するデータベースを作成し、完成したら口の形を用いる言葉の認識で一番難しいと考えている言葉と言葉の区切りを認識することを可能にする。その後には実際に発音訓練に利用可能なシステムの開発を行う。