研究課題/領域番号 |
17300064
|
研究機関 | 豊橋技術科学大学 |
研究代表者 |
中川 聖一 豊橋技術科学大学, 工学部, 教授 (20115893)
|
研究分担者 |
秋葉 友良 豊橋技術科学大学, 工学部, 助教授 (00356346)
北岡 教英 豊橋技術科学大学, 工学部, 講師 (10333501)
土屋 雅稔 豊橋技術科学大学, 工学部, 助手 (70378256)
小暮 悟 静岡大学, 情報学部, 助手 (40359758)
西崎 博光 山梨大学, 大学院・医学工学総合研究部, 助手 (40362082)
|
キーワード | 音声認識 / 講義音声 / 音声ドキュメント / インデキシング / 音声要約 |
研究概要 |
本年度は、講演や講義の音声ドキュメントの高度利用化のために必要な要素技術である音声認識、音声要約、音声ドキュメントのセグメンテーション、音声ドキュメントのインディクス化の研究を行った。 音声認識の高精度化のためには、我々の研究室で開発してきた大語彙連続音声認識システムSPOJUSの改良を行った。コンテキスト依存音響モデルとトライグラム言語モデルを1パス目に組み込むことにより、従来より認識精度を高めることができた。次に、実際の講義音声に対して、音声認識実験を行い、録音機材や音響モデル等による認識率の影響を検討した。さらに、講演音声や講義音声の要約の研究も行った。発話時間長、ピッチやパワー情報、ポーズ長、文の位置情報、手がかり語、重要語の出現頻度などを組み合わせることによる自動要約手法で、それぞれF値は、人間の要約と遜色のない0.599、0.524が得られた。また、講演音声や講義音声を音声認識システムで自動的に書き起こしたテキストデータに対しても要約を行い、音声認識による精度の低下は小さく比較的良い要約結果が得られた。講義音声のコンテンツ化の一貫として、講義音声の書き起こしテキストからキーワードを抽出しインデックスとすることも試みた。人手で書き起こしたテキストに対しては、ほぼ完壁にインデックスを作成することができた。 静岡大学と山梨大学では、講義内容の動画の収集と音声の収集(DAT)を行った.現在,収録した動画から音声データを抽出し、書き起こし作業を人手で行っている。未知語や認識誤り等の対処法の検討については、文法による認識と平行して,ワードスポッティングを用いる音声認識手法についての検討を行った。また、講義や講演において、重要部分を発話するときに、平常音声と比べどのような音響的特徴の差異がでるのかを調べ、有意義な知見を得た。
|