2010 Fiscal Year Annual Research Report
多言語動画コンテンツへの字幕付与のための柔軟な音声言語処理
Project/Area Number |
21700210
|
Research Institution | Ryukoku University |
Principal Investigator |
南條 浩輝 龍谷大学, 理工学部, 助教 (50388162)
|
Keywords | 音声認識 / 多言語処理 / 自動字幕化 |
Research Abstract |
複数言語の主音声と副音声(通訳音声)を利用して国際ニュースや国際会議の動画への字幕付与を支援するための研究を行った.具体的には"同じ内容の音声が複数の言語でなされている状況(実際にニュースなどではこのケースが多い)"に着目し,主音声とその通訳の副音声を同時にかつ情報を互いに補いながら,より頑健に音声認識を行う方法について研究をすすめた.本年度は高精度にかつ高速に計算するために翻訳モデルおよびそのスコアの計算方法に重点を置いて研究をおこなった.特に翻訳モデルスコアの計算近似の影響を詳細に調査した.その際,他言語の音声認識誤りの影響を除き純粋に翻訳モデルの効果を調べるために,完全な英語情報を与えたときの日本語の同時音声認識実験(予備データを使った実験)を行った.近似手法は発話の長さに影響されにくい手法であることを確認した.対応スコア計算時間の短縮が可能となり,実時間動作システムの実現に近づいた.本年度はこの知見に関する成果報告と論文執筆をすすめた.さらに,予備実験データを実際の同時通訳音声データに置き換えて,実験をすすめた.具体的には日英の講演データ(片方の言語の音声は同時通訳音声)を対象とした実験に着手し,その音声認識のための日英双方の音響モデルと言語モデルのモデル化(話者適応を含む)を行って日英の音声認識システムの構築に取り組み,最終年度での同時音声認識実験の基盤整備を推進した.また,字幕の表示方法,具体的には読みやすくするための改行位置の決定とその単位に基づく同時音声認識についても検討を行った.
|
Research Products
(4 results)