2006 Fiscal Year Annual Research Report
講義・講演音声の自動インデキシング化と音声インタラクションによる高度利用の研究
Project/Area Number |
17300064
|
Research Institution | Toyohashi University of Technology |
Principal Investigator |
中川 聖一 豊橋技術科学大学, 工学部, 教授 (20115893)
|
Co-Investigator(Kenkyū-buntansha) |
秋葉 友良 豊橋技術科学大学, 工学部, 准教授 (00356346)
北岡 教英 名古屋大学, 大学院・情報学研究科, 准教授 (10333501)
土屋 雅稔 豊橋技術科学大学, 工学部, 助教 (70378256)
小暮 悟 静岡大学, 情報学部, 助教 (40359758)
西崎 博光 山梨大学, 大学院医学工学総合研究部, 助教 (40362082)
|
Keywords | 音声認識 / 講義音声 / 音声ドキュメント / インデキシング / 音声要約 / ブラウジング |
Research Abstract |
平成17年度と平成18年度で、延べ40時間以上の講義を収録した。これらの音声データのうち、大半のデータに対して書き起こし、間投詞などのフィラー、言い淀み・言いなおし、倒置などのラベルもCSJ話し言葉コーパスに準拠して付与した。これらのデータに対して、話し言葉特有の現象を分析し、講演音声のデータと比較した。予想に反して、講義音声は講演音声よりもフィラーが少ないこと、言い淀み・言いなおし・倒置表現が比較的少ないことが明らかとなった。 昨年度に引き続き、この講義音声の音声認識方法に関し検討した。マイク等の収録条件による影響を除去するために、伝達関数の正規化に相当する種々のケプストラムの正規化法を検討した。それらは、ケプストラム平均正規化、ケプストラム分散正規化、ケプストラムヒストグラム正規化である。また、話し言葉音声認識の高精度化の研究を引き続き行った。それらは、ワンパストライグラムデコーダの高精度化、単語単位の音響モデル化、言語モデルの適応化、等である。話し言葉の言語モデルの構築は、フィラーの存在のために、大量に入手できる書き言葉から学習することが困難である。そこで、フィラーの挿入モデルを機械学習の方法で実現し、その有効性を確かめた。また、要約に関して、重要文特有の表現を機械学習の方法で獲得し、この表現の抽出結果を併用することにより、我々の従来の要約手法の精度を向上できた。講義音声の要約や講義資料と講義音声認識結果の解析によるキーワードを抽出してインデックス化する、音声とキーワードとの対応付けを自動的に行う、要約率と話速を自由に設定できる、等の機能を備えたコンテンツ視聴システムのプロトタイプを実現した。
|
Research Products
(6 results)