会議・会話など人間どうしの音声を対象として、音声データの収集を行うとともに、その音響的・言語的そしてコミュニケーションの観点からのモデル化を行った。 まず会議音声を対象として、階層的なアーカイブを構築し、議事録の作成支援を行うシステムを設計した。GMMによる話者識別を行い、その結果により音声を分割するとともに、話者IDや時間情報などのインデックスを生成する。また談話標識を含むキーフレーズの検出により議論の結論となる発話を特定し、議事次第や会議の配布資料などに含まれる話題依存語彙を利用して、これを自動的に書き起こし、議事録のドラフトとする。以上により音声・インデックス・テキストの3層からなるアーカイブを構築することができる。 次に、この談話標識に基づく自動インデキシングを大規模な講演音声コーパスに対して適用・評価を行った。学習データの講演の書き起こしからポーズ情報を用いてセクション境界候補を検出し、統計的言語モデルを用いて句点を挿入して、各セクションの先頭の一文を抽出する。その中に含まれる名詞から単語頻度と文頻度に基づいて談話標識を選定する。これらの過程は人手によるタグを必要としない教師なし学習により行われる。評価データの各文について談話標識の単語頻度と文頻度の統計量に基づく評価値を計算し、その合計が閾値以上であればインデックスを付与する。実際の講演音声の書き起こしと音声認識結果に対して評価を行った結果、再現率85%程度(適合率は20%程度)の精度で話題セクション境界を自動検出することができた。
|