画像処理併用による雑音環境音声認識の改善に関する研究
Project/Area Number |
15760270
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Allocation Type | Single-year Grants |
Research Field |
Communication/Network engineering
|
Research Institution | Oita University |
Principal Investigator |
緑川 洋一 大分大学, 工学部, 助手 (90315317)
|
Project Period (FY) |
2003 – 2005
|
Project Status |
Completed (Fiscal Year 2005)
|
Budget Amount *help |
¥3,600,000 (Direct Cost: ¥3,600,000)
Fiscal Year 2005: ¥900,000 (Direct Cost: ¥900,000)
Fiscal Year 2004: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2003: ¥2,000,000 (Direct Cost: ¥2,000,000)
|
Keywords | 雑音環境 / 音声認識 / 画像処理 |
Research Abstract |
本研究は、音声信号処理と画像処理を併用することにより雑音環境下における音声認識の認識率の向上を目指し研究を行っている。ケプストラム分析法を基とした音声認識を基に簡易的なスペクトラムサブトラクションのような手法により、雑音のためスペクトラムの低レベル部分の変形により認識率が低下してしまうことを改善するため閾値関数を用いた規則的な谷付け法により認識率の改善を図った。さらにその閾値関数を複数用いることや周波数領域で分けることなどにより更なる認識率の改善を図った。しかし、この手法はフレームごとに規則変形を行うためフレーム(時間)方向の連続性は無視しているため、谷の付いたフレームと谷の付かなかったフレ-ムが交互に並ぶ部分があるなどフレーム(時間)方向に変化の不連続な部分が見られた。このような点を改善するため、画像処理などに用いられるウェーブレット変換を用いることにより周波数およびフレームの両領域同時に平滑化などを行うことにより認識率の改善を行った。本年度は、さらに画像処理に用いられる一般的な画像フィルタなどを用いることやウェーブレット変換を用いる方法に重みをつけるなどにより認識率の改善の検討をおこなった。また、口の動きなどの口唇画像データを用いることにより更なる認識率の向上をねらい研究をおこなってきたが、撮影環境や個人差などによる影響が大きい点や通常会話中の口の変化があまり大きくないことなど精度の高い口の動きの抽出が非常に難しい点などから口の動きの安定した特徴抽出が非常に難しく口唇画像による十分有効な認識法の確立までいたらなかった。重要な研究と考えられるため今後も更なる検討を続けて行きたいと考えている。
|
Report
(3 results)
Research Products
(12 results)