Project/Area Number |
18049037
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas
|
Allocation Type | Single-year Grants |
Review Section |
Science and Engineering
|
Research Institution | Hosei University |
Principal Investigator |
伊藤 克亘 法政大学, 情報科学部, 教授 (30356472)
|
Project Period (FY) |
2006
|
Project Status |
Completed (Fiscal Year 2006)
|
Budget Amount *help |
¥3,000,000 (Direct Cost: ¥3,000,000)
Fiscal Year 2006: ¥3,000,000 (Direct Cost: ¥3,000,000)
|
Keywords | 音声認識 / 大語彙コーパス |
Research Abstract |
情報サービスの発展で提供される選択肢が数万以上のサービスが増加している。このようなサービスに対する音声インタフェースでは、従来のように事前知識による重み付けは、サービスの妨げにもなりかねない。本研究では、現在の音声認識では、安定した性能が得られない多選択肢に対して、高性能な音声認識を実現することを目的とする。 これらの課題を実証的にすすめるため、本研究では、楽曲検索というタスクを設定する。このタスクは、インターネット上での音楽配信サービスのためのインタフェースである。実際の商用サービスにおいて、アーティスト名は1万内外、アルバム名は数万程度、曲名は数十万程度、となっており、多選択肢のタスクとして十分な規模である。 音楽配信サービスなどの大量の固有名を対象とするアプリケーションでは、どの名称がよく使われるというような事前の確率情報が利用できないため、認識率が悪い。 その原因を明らかにするために、一人当たり150単語(個別単語100単語、共通単語50単語)を50名が発話したデータを収録する。 また、一般ユーザが様々な環境で音声認識を利用する場合には、マイクロホンやその使い方などの要素が大きく変動すると考えられる。そこで、オンライン環境で多数の被験者のデータを収集する。 判明している問題点のうち、学習データにない音素については、音声合成手法を用いて学習データから補間する方法を提案した。 辞書の分岐数が大きくなると認識率が悪くなる点については、辞書のサイズを実質的に圧縮する方法で対処する方法を提案する。 辞書を分析したところ、外来語が多いため、音響モデルの学習に用いるデータに含まれないような音素(「フェ」「ディ」「ピュ」など)が多く含まれることがわかった。 また、辞書のサイズが大きくなると認識性能が悪化するが、認識率の変化は一定ではなく、辞書や話者によって、5000語から10,000語程度のととろで急激に、認識率が低下する場合があることがわかった。 オンライン環境で収録したデータに関しては、マイクロホンおよびその使用方法に変動が大きく、雑音区間を発話と誤って検出してしまう例が30%にのぼっており、検出モデルの性能向上が必要である。 今年度は、多選択肢の音声コーパスを整備した。 多選択肢のタスクにおいては、学習データに余り出現しない音素が多用されることがわかった。 そのコーパスを用いて認識率を評価し、辞書のサイズが5000語を越えると悪化することがわかった。
|