研究課題/領域番号 |
12480083
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
知能情報学
|
研究機関 | 東京工業大学 |
研究代表者 |
古井 貞煕 (古井 貞熙) 東京工業大学, 大学院・情報理工学研究科, 教授 (90293076)
|
研究分担者 |
岩野 公司 東京工業大学, 大学院・情報理工学研究科, 助手 (90323823)
|
研究期間 (年度) |
2000 – 2002
|
研究課題ステータス |
完了 (2002年度)
|
配分額 *注記 |
2,900千円 (直接経費: 2,900千円)
2002年度: 800千円 (直接経費: 800千円)
2001年度: 2,100千円 (直接経費: 2,100千円)
|
キーワード | 偏在・ウェアラブル計算環境 / 会議CSCW / 並列型計算機 / 音声対話 / 音声認識システム / 発話内容 / 遍在・ウェアラブル計算環境 / 話者適応 / 会議CSCWシステム / 音声認識 / Ubiquitous / Wearable Computing / 話し言葉 / 音響バックオフ / 対話型システム / モデル学習 |
研究概要 |
遍在・ウェアラブル計算環境の時代を想定した会議CSCWシステム実現のための技術を構築することを目指して研究を進めた。まず対談音声を用いて、話し言葉に適応した言語モデルや、話者の声質に自動的に適応した音響モデルの構築法について検討した。会議や討論の各参加者が個々にマイクロホンを装着していても、相槌や発言のクロストーク(複数話者の音声の重畳)を避けることができないため、クロストークへの対処法について検討した。クロストーク区間での音響スコアは信頼性が低いので、それ以前の音声区間の平均音響スコアで置き換える音響バックオフ法を検討し、認識性能の向上を確認した。 会議音声においては、発言者によって音響モデルや言語モデルが異なるため、各話者に対応したモデルを持つ複数の音声認識システムを並列型計算機で実現し、オンラインで音声認識するシステムを構築した。会議参加者の話者交代を自動的に検出しながら、音響モデルの教師なし適応を行う。入力話者が未知の場合は、新たに話者適応モデルを作成する。各話者に適応した音響モデルを持った音声認識システムの結果から、尤度を基準に最適な認識結果を選択する。実験の結果、単一の音声認識システムを用いるよりも高速で、比較的高い認識精度を持つシステムが実現できることが確認された。 音声認識結果をもとに、人とコンピュータとの対話によって議事録を作成する実験システムを構築した。話者適応、新しい語彙の追加、人が指摘した認識誤りに基づく自動的なモデル学習などを有効に組み込む方法や、使いやすいヒューマンインタフェースの検討を進めた。本研究で研究した並列処理型音声認識システムを、混合主導型音声対話システムに適用し、その有効性を確認した。さらに、話し言葉に対する音声認識精度向上のための基本的な研究として、話し言葉音声認識のための音響モデルと言語モデルの構築法、それらの話者、話題などへの適応化法の研究、誤認識の要因に関する統計的分析などを行った。
|