研究課題/領域番号 |
12480085
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
知能情報学
|
研究機関 | 京都大学 |
研究代表者 |
河原 達也 京都大学, 情報学研究科, 助教授 (00234104)
|
研究分担者 |
堂下 修司 龍谷大学, 理工学部, 教授 (00025925)
池田 克夫 大阪工業大学, 情報科学部, 教授 (30026009)
黒橋 禎夫 東京大学, 情報処理工学系研究科, 助教授 (50263108)
奥乃 博 京都大学, 情報学研究科, 教授 (60318201)
佐藤 理史 京都大学, 情報学研究科, 助教授 (30205918)
|
研究期間 (年度) |
2000 – 2002
|
研究課題ステータス |
完了 (2002年度)
|
配分額 *注記 |
7,200千円 (直接経費: 7,200千円)
2002年度: 1,500千円 (直接経費: 1,500千円)
2001年度: 1,800千円 (直接経費: 1,800千円)
2000年度: 3,900千円 (直接経費: 3,900千円)
|
キーワード | 音声情報処理 / 音声認識 / 話し言葉 / 音響モデル / 言語モデル / HMM / N-gram / 話者認識 |
研究概要 |
講演や討論などの話し言葉の音声認識における問題を分析した上で、音響モデル・発音モデル・言語モデル・デコーダなどを検討・実装・評価した。学習・評価用のデータとして、開放的融合研究「話し言葉工学」プロジェクトで構築されている日本語話し言葉コーパスを用いた。 話し言葉は書き言葉の読上げ音声と大きく性質が異なるため、それに合致したモデル化と認識手法の検討が必要となる。音響モデルについては発話スタイルとデータ量の影響を調べた。言語モデルについては,話し言葉コーパスのデータ量不足を補うために他のコーパスと混合する方法、特に混合重みの最適化手法を提案した。また認識に際して、事前の発話のセグメンテーションが容易でないため、ショートポーズの自動認識に基づいて区分化と認識結果の確定を行う逐次デコーディング方式を提案・実装した。 これに加えて、以下のような高精度化を図り、学会等における講演の音声に対して平均で約70%の認識率を得た。 (1)発話速度に依存したデコーディングと音響モデルの適応 (2)講演音声認識のための発音モデルと言語モデルの教師なし適応 さらに、以下のような音声言語処理に関する研究も行った。 (3)談話標識の抽出に基づいた講演音声の自動インデキシング (4)講演の書き起こしに対する統計的手法を用いた文体の整形 (5)談話標識と話題語に基づく統計的尺度による講演からの重要文抽出
|