研究課題/領域番号 |
24500115
|
研究種目 |
基盤研究(C)
|
研究機関 | 奈良先端科学技術大学院大学 |
研究代表者 |
川波 弘道 奈良先端科学技術大学院大学, 情報科学研究科, 助教 (80335489)
|
研究分担者 |
鹿野 清宏 奈良先端科学技術大学院大学, 情報科学研究科, 教授 (00263426)
猿渡 洋 奈良先端科学技術大学院大学, 情報科学研究科, 准教授 (30324974)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | 音声対話システム |
研究概要 |
音声情報案内システムはユーザ負担が少ないことから、万人に優しい情報アクセス方法として期待されている。すでに我々は用例ベースの実環境システムを開発し70~60%の応答正解率を達成しているが、更なる性能の向上のため機械学習によるトピック分類と自動翻訳技術を導入した。 H24年度は、機械学習によるトピック分類に2段階分類を導入することで、大人・子供発話とも分類性能を改善した。具体的には15カテゴリーの分類をタスクとした教師あり学習による実験を行った。まず1段目の識別処理として音声認識結果のBOW(Bag-of-words; 単語頻度ベクトル)を特徴量としてサポートベクターマシン、最大エントロピー法、pboostの3手法による識別を行い、それらの出力結果を特徴量としたサポートベクターマシンにより2段目の最終的な識別を行う、Stacked Generalization手法を導入した。 加えて、実システムにおいてトピック分類処理の前段階に必要となる不要入力(雑音や不要発話)棄却実験も行った。特徴量として従来用いられている音響的特徴、音声・雑音モデルの尤度等に加えここでもBOWを追加した。その結果、従来手法を超える棄却率を実現した。 応答生成に自動翻訳技術を導入する研究では、音声認識結果がシステム入力であることをふまえ、翻訳モデルの翻訳元データとして音声認識を用いた実験を行った。音声認識結果を用いることは翻訳モデル構築コストにも繋がる。音声認識結果は一つの音声データから順位付きで複数の候補仮説が得られるので学習、テストに複数の候補仮説を用いた評価も行った。これらの方法を導入することで、書き起し文による翻訳モデルのものより適切な応答文が生成された。しかしながら、質問文データベースの探索による用例ベースの方式の応答性能にはまだ到達しておらず、誤りの要因分析が必要な状況となっている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
機械学習によるトピック分類の研究は、2段階分類を導入することで大人・子供発話とも分類性能の有意な改善が実現できた。実験タスクとしても実用的な15カテゴリーのトピック分類であり、実環境運用により得られた一般のユーザ発話を用いた実験であることから、この手法が実システムで有効であることを示すことができた。 同様の枠組を援用して、実システムデータの不要入力棄却実験も行ったが、これも従来手法を超える棄却率を実現し、実用的な手法であることが示された。 統計的自動翻訳を用いた応答文生成に関しては、書き起し文を変換元とする我々のこれまでの手法と比べて、正しい応答文、適切な表現の応答文が生成される率は向上したが、質問文データベースの探索による用例ベースの方式の応答性能には到達していない。ただし用例ベースの手法では得られない表現の多様性においては利点がある。 これらの研究の進捗状況から、H24年度はおおむね順調に研究を進めることができたと自己評価するものである。
|
今後の研究の推進方策 |
H24年度には、それまでに進めてきた教師ありデータによるトピック分類の技術を総合的に比較評価することで、有効な基本的な枠組を獲得することができた。そこで、トピック分類の高精度化に半教師あり学習を導入する。我々が本研究で使用している音声データは、現在に至るまで10年以上にわたって実環境運用している音声対話システムにより得られている。そのうち24年度で利用したデータは人手による書き起しを行った2年強のデータのみである。その以外の大量の音声データを教師なしデータとして用いることで、データがあれば自動的に分類性能向上が可能となる枠組を構築する。 翻訳モデルによる応答文生成のアプローチに関しては、音声認識結果を変換元とした翻訳モデルが応答生成に有効であることが示唆された。用例ベースに基づく既存技術の応答正解率には到達しなかったが、既存手法では実現不可能な「入力の表現に対応して表現を多様化できる」という利点がある。そこで生成された応答内容、表現の不適切な点について要因分析を行い、翻訳モデルの特徴量、モデルパラメータの詳細な検討を行う。 最終年度には、不要入力棄却処理、機械学習による識別モデルによるトピック分類、翻訳モデルによる応答文生成技術を組み込み、実証実験を行う。
|
次年度の研究費の使用計画 |
該当なし
|