研究概要 |
大量の音声データから必要な情報を短時間で取り出すことは容易ではないことから,講演音声や会議の自動要約が期待されている。そこで,重要文検出に基づいた講演音声の自動要約を実現するためにCSJにおける20講演を用いて17名の作業者による重要文抽出実験を行い,その結果を分析した。抽出された重要文に対する作業者間の一致度,FOの分散と一致度の相関から,抑揚のある講演ほど重要文抽出結果が一致しやすいことが確認できた。CSJに付加されている重要文抽出結果に対しても一致度を算出し,実験結果と比較を行った。また,単語の出現頻度,重要文の中で高頻度語を含んでいる割合など言語情報と重要文の関係も分析した結果,重要文のうち約半数は高頻度語を含む確率が高いことが確認できた。 さらに,200msのポーズで挟まれた範囲を基本単位とし,人手により決定された重要度と,韻律情報から抽出したパラメータとの関係を分析した。パラメータは正規化パワー,パワー,正規化時間長,発話時間長の4つを用い,それぞれ発話単独のパラメータを用いる手法と,前の発話におけるパラメータとの変化量を用いる手法の2通りを試みた。また前後の発話における韻律パラメータの影響を考え,前後の発話における韻律パラメータを足し合せることによって,スムージングと重み付けを行った。しかし,実験の結果,人手により決定された重要度と韻律パラメータとの間にあまり強い相関は得られなかった。パワーに関しては,スムージングを行うとより強い相関が得られる傾向があり,スムージングに用いる発話数は3よりも5のほうが強い相関が得られる傾向があったが,重み付けをすると多少相関が弱くなる傾向があった。また発話時間長に関しては他のパラメータよりも多少強い相関が得られた。
|