音声・言語・画像情報の統合化による概念の獲得に関する研究

Research Project

Project/Area Number	03245209
Research Category	Grant-in-Aid for Scientific Research on Priority Areas
Allocation Type	Single-year Grants
Research Institution	Toyohashi University of Technology
Principal Investigator	中川聖一豊橋技術科学大学, 工学部, 教授 (20115893)
Co-Investigator(Kenkyū-buntansha)	中西宏文愛知教育大学, 教育学部, 助手 (90211424) 山本幹雄豊橋技術科学大学, 工学部, 教務職員 (40210562)
Project Period (FY)	1991
Project Status	Completed (Fiscal Year 1991)
Budget Amount *help	¥2,000,000 (Direct Cost: ¥2,000,000) Fiscal Year 1991: ¥2,000,000 (Direct Cost: ¥2,000,000)
Keywords	音声情報 / 画像情報 / 概念の獲得 / 学習 / 視聴覚情報
Research Abstract	本研究では、視覚と聴覚という2つの外的刺激を結びつけて、未知の入力に対する概念の獲得法式を定式化することを目的とし、画像と音声情報により概念を形成するシステムを作成した。本システムでは、この視覚情報(画像)と聴覚情報(音声)を用いて計算機に物の名前や位置等の概念を学習させる。視覚情報としてはカメラで取り込んだ図形画像を入力し、概念形成に必要なパラメ-タを抽出する。今回の実験で形成する概念は、(1)図形の存在性、(2)図形の位置、(3)図形の大きさ、(4)図形の色、(5)図形の形状、の5つのグル-プに分類される。各概念グル-プに対するパラメ-タを抽出する。聴覚情報として、音声から音声情報を抽出する。方法としては、二つの音声の時系列デ-タ同士のDPマッチングを行ない、それによって算出された最適照合パスおよび照合距離により、類似区間を抽出する。次に、文音声とそれに関連する画像の前処理デ-タより音声と画像の対応付けから概念を獲得していくアルゴリズムを開発した。以前、我々が開発した概念獲得アルゴリズムは、画像の特徴パラメ-タの抽出ミスや音声の共通区間の抽出ミスに対してあまり考慮していなかった。また、学習用の音声と画像のペアの入力順序には多少の制限を設けていた。今年度は、これらに対しても概念が獲得できるアルゴリズムを開発した。評価実験として、まず音声の代りに誤りを含んだ文字列、画像の代りに画像特徴パラメ-タを用いてシミュレ-ション実験を行ない、正しく13個の概念(例えば三角形、丸、白い、大きい、左など)が獲得されていくことを確認した。さらに、実際に音声と画像した場合についても評価実験を行なった。音声の共通区間の抽出精度がシステムの性能にも大きく影響することが明らかになった。