研究概要 |
本年度は,映像の構造化技術の開発を行った.コーナ単位に分割されている語学学習番組映像の内,教材として利用される,外国人同士が会話しているシーンからなるコーナに対して,その内容を把握するための構造化処理を適用した.対象となる会話シーンは,英語での会話を想定した.会話シーンの発話内容のテキストが予め与えられている前提で,映像中の音声とテキストを文単位で対応付けする処理を開発した.これにより,会話シーンの話題を追跡し,特定の単語やイディオムに対応する映像区間を検出し,再生することが可能となった. 音声とテキストの文単位の対応付けでは,まず,音声中に含まれる無音部分を手がかりに,発話区間を抽出する.テキストからは,ピリオドで区切られた文を抽出する.このように抽出された発話区間と文に対して,区間の継続時間,および,音声認識の結果を特徴量として,類似する発話区間と文の組みを求めることで,対応付けを行う.しかし,対象とする会話シーンでは,会話中の言い淀みやテキストに書き出されていない相槌などにより,発話区間と文の区切りが一致しないことが多く生じる.この問題に対して,複数の発話区間や複数の文をまとめた単位(連結パターン)を新たに導入し,全ての連結パターンの中で最適な組み合わせを優先して対応付けする手法を開発した.このように大きな単位で対応付けた後で,その内部を更に文単位に分割することで,精度向上を達成した. 同時に,会話シーン中の人物を対応付けることで話者単位で映像を構造化するために,映像の背景画像を推定し.人物を抽出する処理,および,異る向きで映っている人物でも同一人物として対応付ける処理についても検討した人物向きの変化に対しては,±30度程度まで対処できることが分かった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は,映像構造化技術と操作インタフェースの初期的な開発を予定してた.映像構造化技術については,音声および映像を単体で用いた手法について,ほぼ開発ができた.両者を同時に用いることで,文単位や話者単位での構造化が可能となる.操作インタフェースについては,文単位での再生が可能となった状態であるが,最終年度に向けて開発を進める準備ができた.
|