研究課題/領域番号 |
24700169
|
研究種目 |
若手研究(B)
|
研究機関 | 大阪産業大学 |
研究代表者 |
高橋 徹 大阪産業大学, デザイン工学部, 講師 (30419494)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | 擬音語 / 音声認識 / 環境音 / ロボット |
研究概要 |
ロボットが、音声・環境音・背景音を同時認識するための方法を開発することが本研究の目的である。ロボットが、実環境で人間とスムーズに音声を通じて対話するためには、音声認識機能に加え、一般の音を含む、様々な音を認識する必要があるためである。 平成24年度の研究実施計画では、同時認識するためのプロトタイプシステムを構築することが目標であった。具体的には、音声認識部分、環境音認識部分、背景音認識部分から構成される。これらのシステムを実ロボットに構築することが目標であった。そこで、Robovie-R3 というロボットに、マイクロホンを16本搭載し、音源定位・音源分離・分離音声認識可能なシステムを試作した。現在、3つの認識部分が実装され、3つの認識結果をどのように処理するべきかという認識結果の選択手法を研究する段階に入っているため、概ね、計画通りに研究が進んでいると考えている。 音声認識部分は、既存の音声コーパスを用い、ロボットの形状や、周囲の環境を考慮した認識モデルを構築し、分離音声を認識する音声認識を実装した。環境音部分は、環境音コーパスを作成し、既存の環境音コーパスと合わせて、環境音認識モデルを作成した。音響特徴量の違いによる認識性能の差を評価した。この部分は、平成25年度に実施する予定であったことから、計画が前倒しで進んでいる部分である。背景音認識部分については、プロトタイプを実装したものの十分な評価が行えていない。全体としては概ね計画通りに進んでいると考えている。 このプロトタイプシステムを評価のベースラインとして、平成25年度以降は、ロボットに各種センサーを取り付け、機能拡張し、認識性能の改善とそれらの手法の性能評価を行っていく計画である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
音源定位・音源分離・分離音声認識可能なシステムを試作し、音声認識、環境音認識、背景音認識機能を実装した。実装した機能の中で、特に環境音認識部分に新規性があるため、その点を中心に報告する。環境音認識をHidden Markov Modelに基づく音声認識の枠組みを用いて開発した。環境音の統計モデルを作成するために、環境音データベースを作成し、それらの環境音を聞いた時に人間がどのような擬音語に聞き取るかを調査した。その調査に基づき環境音と擬音語を結び付けた。この様にモデル化した擬音語モデルに、環境音を入力すると擬音語が生成される仕組みである。従来研究では、環境音をクラス判別する方法が主流であったため、区別できる環境音は、設計したクラス数となる。一方、本手法は、環境音を擬音語で表現することから、音節の組み合わせで表現できるクラス数の環境音を区別できる。これは事実上無数のクラスを区別できることを意味する。計画通りに音声認識、環境音認識、背景音認識機能を実装した他、従来の対話における表現の自由度を改善しており、研究は順調に進んでいると考えている。
|
今後の研究の推進方策 |
平成25年度以降は、実環境での評価に向けたシステム開発とプロトタイプシステムの改良を行う。環境音認識モジュールが生成する擬音語が、人の感覚に合っているかどうかは、収集する環境音と、人が聞き取ったときどのような擬音語に表現するかの対を、無数に収集する必要がある。統計モデルに基づく環境音認識性能は、データの収集量に強く依存するためである。収集作業は、人が聞く作業を介するため、多くの時間を要する問題がある。この問題を解決する方法を考える必要がある。平成25年度は、平成24年度と同様に、人手でデータ量を増やしながら、この問題を解決する手法を試行錯誤する。多少なりともデータ量を増やすことで、安定した統計モデルの構築(あるいはモデルの改良)を行い、計画書記載事項に取り組む。具体的には、他のセンサー入力を用いて、音声、環境音、背景音の認識誤りを軽減する手法を構築する。
|
次年度の研究費の使用計画 |
ロボットの機能拡張作業を自身で行ったため拡張済みのロボットを購入するよりも費用を節約できた。余剰経費については、今後増設予定のセンサーの数や種類を増強し、より高精度なセンシングを実現するために用いる予定である。
|