2011 Fiscal Year Research-status Report
高齢者音声を明瞭化する音声処理インタフェースに関する研究
Project/Area Number |
23560459
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
中藤 良久 九州工業大学, 工学(系)研究科(研究院), 教授 (10599955)
|
Co-Investigator(Kenkyū-buntansha) |
水町 光徳 九州工業大学, 工学(系)研究科(研究院), 准教授 (90380740)
|
Project Period (FY) |
2011-04-28 – 2014-03-31
|
Keywords | 高齢者音声 / 明瞭化 / データベース / 音声処理 / インタフェース |
Research Abstract |
平成24年度の実施計画では、(1)高齢者音声データベースの整備と高齢者音声と一般成人との音響的特徴の違いの検討、(2)高齢者から成人への音声の特徴を変換するパラメータの予備検討、行う予定であった。その結果、各々以下の成果が得られた。(1)先行研究では、高齢者音声の特徴解析の際に単語音声の「語中」部分での高齢化の影響を明らかにした。しかし、語中では音素から音素への変化、すなわち調音結合の影響を受け易いため、高齢化の影響をのみを解析しづらいという課題があった。そこで現行の単語音声データベースを用いて、調音結合の影響がない「語頭」での解析を行うことにした。その結果、高齢化に伴いスペクトルの変化の大きさを表す「遷移量」が低下することが分かった。特に、メリハリのない高齢者音声では、メリハリのある高齢者や成人と比較して、その傾向が顕著であった。(2)上記の結果から、高齢者音声と成人音声の音響的違いを表す特徴量として「メリハリのなさ」の原因である「遷移量」が有力であることが分かった。そこで、この「遷移量」が、高齢者から成人への音声の特徴を変換するパラメータとしてどの程度有効であるかを明らかにするため、音声認識性能との対比により評価した。その結果、「メリハリのない高齢者音声」は「成人音声」と比較して、有声破裂音から母音に変化するような場合に「遷移量」が小さくなり、同時に認識率も低くなることが分かった。一方、母音から母音の遷移のようにスペクトル変化が比較的小さい場合は、遷移量と音声認識率との間には明確な関係性が見られなかった。以上より、高齢者から成人への音声を変換することで明瞭性を改善するには、有声破裂音から母音へ変化する「わたり」の部分などで「遷移量」が大きくなるようにスペクトル変化を強調させる処理を施すことで、「メリハリ」すなわち「明瞭性」を改善できる可能性があることが分かった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の目的は、世界的に益々増加する高齢者への支援を目的に、実環境において高齢者音声を明瞭化する音声処理インタフェースの構築を目指すことである。そのため平成24年度の計画としては、(a)先に研究分担者が検討した高齢者音声特有の音響的特徴を用いて、高齢者音声と成人音声の特徴の対応関係を明らかにする、(b)この音響的特徴の対応関係を適切に表現できる変換パラメータを選定する、(c)変換パラメータに基づいて高齢者音声から成人音声へと変換する見通しを得る、ことであった。この計画に対し、平成24年度は、以下の2点の成果が得られたことにより、高齢者音声から成人音声へと変換する方法のおおよその目処が立ったと言えるため、おおむね順調な進捗状況と判断している。(1)語頭における高齢者音声と一般成人音声の音響的特徴の違いの解明高齢者音声特有の音響的特徴が「語中」だけでなく「語頭」においても高齢者音声特有の音響的特徴が表出することが明らかとなり、高齢化に伴いスペクトルの変化の大きさを表す「遷移量」が低下することから、高齢者から成人への音声の特徴を変換するパラメータとして有望であることが明らかになった。(2)高齢者音声の音響的特徴と音声認識性能との関係性に基づく、高齢者から成人への音声の特徴を変換するパラメータの予備検討この実験の結果、高齢者から成人への音声を変換することで明瞭性を改善するには、有声破裂音から母音へ変化する「わたり」の部分などで「遷移量」が大きくなるようにスペクトル変化を強調させる処理を施すことで、「メリハリ」すなわち「明瞭性」を改善できる可能性があることが分かった点は、次年度につながる具体的な成果である。
|
Strategy for Future Research Activity |
平成24年度は、平成23年度に行った高齢者の音響的特徴の検討結果と変換パラメータの予備検討を踏まえて、高齢者音声の特徴を一般成人の特徴へと変換する方法についての検討を実施する。たとえば、変換パラメータとして「遷移量」を用いる場合は、「遷移量」が大きくなるようにスペクトル変化を強調させる処理を施すことで、「メリハリ」すなわち「明瞭性」を改善できる可能性がある。具体的には、たとえば有声破裂音から母音へ変化する「わたり」の部分であるかどうかをスペクトル識別技術を用いて判定し、該当部分に対してスペクトル変化の瞬時制御を行う方法などを検討する。ところで、変換精度の評価には歪みなどの物理的尺度を用いるとともに、聴取実験等による明瞭度の主観評価を合わせて行い、方式の妥当性の検証を行う予定である。 さらに平成25年度は、平成24年度に行った高齢者音声の特徴を一般成人の特徴へと変換する方法の改良を行い、高齢者音声を明瞭化するための方式検討を行う。また、高齢者音声がどの程度明瞭化したかを評価する際には、PC上のオフラインでのシミュレーションだけでなく、実際に動作するプロトタイプシステムでの評価を行うことは重要である。そこで高齢者音声の特徴を一般成人へと変換する方式の実装を行い、高齢者音声処理インタフェースのプロトタイプを完成させる。このプロトタイプを用いて、実際の使用環境を想定したシステムの評価を行う予定である。なお、平成25年度は、高齢者音声を明瞭化する音声処理インタフェースのプロトタイプを構築するための評価用PCを導入する予定である。ところで、高齢者の音響的特徴と方式検討とは密接に関連しているため、それらを相補的に発展させることを計画している。そのため、平成25年度も必要に応じて音声データベースの拡充を行い、高齢者音声の特徴分析を継続する。
|
Expenditure Plans for the Next FY Research Funding |
平成23年度における研究を実施した結果、次年度使用予定の研究費が発生した。これは「研究実績の概要」に記載した通り、当初計画では自然発話に近い状況における高齢者の連続音声データベースの構築を行う予定していたが、調音結合の影響がない「語頭」での解析を優先したため、現行の単語音声データベースを用いて実験を行い、連続音声データベースの構築を次年度以降にシフトしたためである。連続音声データベースの構築は、今後平成24年度以降に研究進捗を勘案しながら実施する予定である。その際には、高齢者の音声を収録機器(マイク、アンプ、オーディオI/F、PC)を購入や、連続発声音声の中から単語部分を取り出す波形編集ソフトなどの購入も予定している。さらに、音声変換方式のシミュレーションを多量の音声データを用いて実施する場合に必要となる高性能パソコンや主観評価実験用のパソコンなどの購入も予定している。ところで、高齢者の音響的特徴の解析と変換方式の検討とは密接に関連しているため、それらを相補的に発展させるために、平成24年度以降も必要に応じて様々な音声データの収録を行う予定である。
|