研究概要 |
複数言語の主音声と副音声(通訳音声)を利用して国際ニュースや国際会議の動画への字幕付与を支援するための研究を行った,具体的には"同じ内容の音声が複数の言語でなされている状況(実際にニュースなどではこのケースが多い)"に着目し,主音声とその通訳の副音声を同時にかっ情報を補完しあいながら,より頑健に音声認識を行う方法について研究をすすめた.日本語音声と英語音声を同時に音声認識することを目標とし,予備実験データを用いて実験を行った.提案する同時音声認識においては同一内容の日本語と英語の対応づけスコアが重要であるため,本年度はこれを高精度にかっ高速に計算するための翻訳モデルおよびそのスコアの計算方法について中心的に研究を行った.具体的には,英語情報を用いた日本語の音声認識において,翻訳モデルの学習データと評価データのドメインの違いの影響,学習データ量の影響,および統計的翻訳モデルとしてどのモデル(IBMモデル1から3)が適しているかを調査した.翻訳モデルの効果を調べるために,英語の音声認識誤りの影響を除いて実験を行った.データ量が多いほうが精度の高い翻訳モデルを学習できること,およびドメインが異なるデータを単純に加えても効果が低いことを確認した.翻訳モデルとしてはIBMモデル3が精度の面で適していることがわかった。また翻訳モデルスコア(対応づけスコア)の計算においては,厳密な計算を行わずに近似を行っても音声認識への影響は大きくないことがわかった.対応スコア計算時間の短縮が可能となり,実時間動作システムの実現に近づいた.
|