研究課題/領域番号 |
19H01125
|
研究機関 | 豊橋技術科学大学 |
研究代表者 |
北岡 教英 豊橋技術科学大学, 工学(系)研究科(研究院), 教授 (10333501)
|
研究分担者 |
東中 竜一郎 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, 協創情報研究部, 上席特別研究員 (90396151)
宇津呂 武仁 筑波大学, システム情報系, 教授 (90263433)
小林 彰夫 筑波技術大学, 産業技術学部, 准教授 (10741168)
山本 一公 中部大学, 工学部, 准教授 (40324230)
西崎 博光 山梨大学, 大学院総合研究部, 准教授 (40362082)
西村 良太 徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (50635878)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | 高齢者音声認識 / 音声対話 / 認知力診断 / 雑談対話 |
研究実績の概要 |
高齢者の音声認識の高精度化を目的として、高齢者音声データの収集を進めた。これまでに200人を超える話者の読み上げ音声を収録しデータベース化した。このデータを用いてDNN-HMM音声認識器を構築し、高齢者に対する音声認識精度の向上を確認した。並行して、高精度な高齢者音声認識を行うために、ガウスフィルタバンク層を入力層に持つDNN-HMM音響モデルに対する話者適応の研究を行った。高齢者音声が多く集まらない場合でも、適応技術により頑健な音声認識が実現できる可能性を示した。さらにEnd-to-end音声認識技術であるCTCに基づく低遅延の認識方法の研究を行った.対話に関しては、これまでに提案した対話事例の適応手法を適用して獲得した事例を用いた音声対話システムを構築し、それに照応解析機能を付与し、対話を高度化した。ロボットを2体用いた3者雑談対話システムを構築し、個性の異なる2体のロボットを用いることで、雑談対話を長時間飽きることなく続けることができるようになることを狙ったものである。認知力診断の一環として、話し言葉コーパスの音声および書き起こしテキストを情報源として,流暢・非流暢の度合いが付与されたクラスを再現する識別タスクにおいて,LSTMおよびSVMにより音響特徴量,フィラー・語断片等の特徴量の有効性を分析した.認知力診断を織り込む対話に向けて、雑談対話に小さな目的志向対話を挟み込むことでより自然な対話になるような対話制御についても検討を行った。一方で、長谷川式認知症スケールを雑談において被験者の負担なく実施する方法について検討を進めた.具体的には,見当識(状況の基本的な認識)を尋ねる質問に着目し,自身,時間,場所に関する質問の自動生成のためのデータ収集および深層学習を用いた生成モデルの構築を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
高齢者音声認識に関しては、データベース構築が目標としている話者300名に近づきつつありる。また、音声認識システムの構築に関しても来年度実施の予定を前倒しで開始することができた。単純な再学習法による高精度化までを予定しており、実現したが、ガウスフィルタバンク層を入力層に持つDNN-HMM音響モデルに対する話者適応手法による高精度化の可能性の検討も始めることができた。さらに並行して、最新の音声認識手法であるEnd-to-end音声認識、特に対話に用いるための低遅延リアルタイム音声認識法であるCTCベースの手法の検討も開始できた。音声対話については、これまでに提案しているコンテンツ獲得技術(対話事例の適応法)に加え、その運用のために必要な技術開発(照応解析を用いた対話管理)も実施した。さらに、雑談対話を継続するための方法論についても検討できた。これは、音声対話独特のくだけた表現や主語・目的語の省略の頻発にも対応することを考慮した手法となっている。認知力診断に向けては、流暢・非流暢指標を自動判定する方法を開発した。認知力が流暢性に反映されることを考えると、認知力診断に一歩前進したと言える。また、医師などによる対話的な認知力診断法である長谷川式認知症スケールを対話システムで実施する方法も検討した。こうした目的を持った対話を雑談対話に織り込むことによって、自然な方法で高齢者に負担なく認知症の診断をする方法論にも着手できた。
|
今後の研究の推進方策 |
音声認識に関しては、まず音声データベースの拡充を継続する。300人を目標としているが、その際には日本国内の地域バランスも考慮する。具体的には中国地方、東北地方などの収録を実施する。また、高齢者では、こうした地域差(方言)が音声認識性能に影響していることが分かっているので、地域を考慮に入れた音声認識手法の開発も行う。その際には、各地域の話者数が少なくなるため、検討している話者適応手法を導入する。さらに、CTC音声認識手法においても同様の検討を行う。また、昨年度実施できなかった音声合成に関する検討を行う。高齢者の音素の知覚実験に基づいて、音声を加工して聞きやすくする音声合成技術を開発することで、聞き取り率の向上を図る。音声対話における対話コンテンツの獲得では、ユーザの興味のある話題に関する対話事例を、Web検索に基づいて生成する手法を考案する。具体的には、出身や趣味、好きなものなどと言ったユーザプロファイルに基づいてWeb検索を行い、関連する事項を獲得する。このプロファイルに関するテキストデータから、疑似対話を生成して事例とすることを考える。この事例を昨年度開発した音声対話システムに組み込んで、より充実した対話システムを実現する。そして、長谷川式的な診断対話を新たに作成し、昨年度検討したタスク指向対話を雑談対話に組み込む方法に基づいて、この対話を織り交ぜた音声対話システムの構築を開始する。
|