研究分担者 |
新岡 恒雄 豊橋技術科学大学, 大学院・工学研究科, 教授 (70314101)
増山 繁 豊橋技術科学大学, 工学部, 教授 (60173762)
北岡 教英 豊橋技術科学大学, 工学部, 講師 (10333501)
小林 聡 島根大学, 総合情報処理センター, 助教授 (90314096)
宇津呂 武仁 京都大学, 大学院・情報学研究科, 講師 (90263433)
|
研究概要 |
講演音声や講義音声,ニュース音声等の大規模音声データベースからの情報アクセス方法として,音声内容の要約,検索,質問応答などの技術開発が必要である.そのための基本的技術として,話し言葉音声の認識(ディクテーション)が重要である. 本研究では、音声ディクテーション技術として,1パストライグラムによる音声認識デコーダの高精度化,複数の認識システムの統合化による認識率の向上化,二つの認識システムの共通部分による高信頼度部分の抽出,高信頼度部分を利用した音響モデルと言語モデルの教師なし学習による認識精度の向上,などを図り,有用な結果を得た. 講演音声を対象に表層的言語情報と韻律情報を用いた重要な文の抽出法を開発した.用いた主な技術は,手がかり語,キーワードの出現頻度,文の出現位置,長いポーズの直前などで,人間により重要文抽出精度と同程度の精度で要約文を得ることができた。 音声ディクテーション結果から単語をインデックス化しておき,音声によって音声文書を検索する技術を開発した.検索の精度を上げるためには,認識単語を増大させ,未知語を減少させること,挿入誤りを許しても脱落誤りを避けること,キーワードの認識候補から関連するキーワードをグルーピングすること,が有用であることを示した.また,ユーザの音声による質問に対して,音声データベースから答えを見出す音声質問応答システムを開発した.本システムの特徴は,答えを音声で応答するので,音声認識誤りは問題でなく,答えとなるカテゴリが存在する箇所を高精度に見つけることが重要で,そのためにクラス言語モデルが有用であることを示したことである. 音声データベースから,ユーザの欲する情報を検索する際,システムとユーザがインタラクティブにやりとりしながら欲しい情報を得る手段として,音声対話システム技術がある,本研究では,データベース検索,予約のための汎用的な音声対話システムを開発した.
|