ニュース音声に対する高精度な自動索引付けを目的として、その内容に類似したウェブドキュメントを自動的に収集し、ニュース音声専用の言語モデルを構築する手法について検討した。具体的には、前年度までに検討したウェブドキュメントの収集方式および収集された文書をトピックごとにクラスタリングする方式について比較検討を行い、提案手法で用いるスペクトラルクラスタリングの有効性を確認した。またクラスタリングされた収集文書集合の分散から、検索に用いた語句の認識精度を推定することにより、収集文書の信頼性を判断することを検討し、信頼性の高い文書を用いることで認識精度を高めることができることを示した。 またニュース文書を対象として収集された文書の中には3連接以上の熟語や固有名詞を含んだ名詞句が現れるケースが多く見られることから、従来の統計的言語モデルで用いられる3gramモデルをそのまま利用するのではなく、熟語や名詞句をそのままの形で言語モデルに未知語として登録する手法が有効であるとの予想を得ることができた。 上記、提案手法では学習データが小〜中規模になってしまうことから、統計的言語モデルの学習データとしては不十分であると考えられるため、既存の統計的言語モデルと併用するためのネットワーク文法の自動構築手法についても検討した。さらに、ネットワーク文法構築の際の問題点である未知語および未知の文パターンに対する対応策を検討し、その有効性について検討したものを国内外の学会で発表した。
|