2005 Fiscal Year Annual Research Report
音響的テクスチャに基づくロボット・インタラクションの研究
Project/Area Number |
17650052
|
Research Institution | Kyoto University |
Principal Investigator |
奥乃 博 京都大学, 情報学研究科, 教授 (60318201)
|
Co-Investigator(Kenkyū-buntansha) |
駒谷 和範 京都大学, 情報学研究科, 助手 (40362579)
|
Keywords | 音響的テクスチャ / ロボット感覚 / 共感覚 / 擬音語認識 / RNNPB / SIW / 口真似 / 模倣 |
Research Abstract |
初年度は、環境音の表現法として既開発のSIW(Sound Imitation Word)を口真似のために拡張するとともに、音響的テクスチャに基づいたモダリティ間マッピングに取り組んだ。具体的な成果は次のとおりである。 (1)環境音からのSIWに音高やリズムなどを加えた表現法としてXMLタグを設計し、その自動付与システムを開発した。最上位タグsoundの下にsegmentがあり、その下にtime, SIW, pitchがある。処理は、セグメンテーション、オンセット・オフセット検出、音高遷移パターン取得、音素決定の順で行い、最終的にXML表現を得る。得られたXML表現から簡単な口真似ができることを確認した。対象である環境音は、音声や楽音と比較して、顕著な特徴のないものが少なくないので、それぞれの処理で工夫を行っている。例えば、セグメンテーションでは、パワー包絡とスペクトル変形を組合せてロバストにしている。音高遷移パターン取得では、非調波構造のセグメントは序盤・中盤・終盤に分割し、それぞれのパワーが最大になるバンクの周波数から、遷移パターンを認識している。 (2)音響事象をマルチモーダル情報で認識し、記憶するとともに、連想による検索する機能を実現した。音響信号は50msごとの4次元メルフィルタバンクの出力を、画像情報は色情報を使用し、これらの入力をRNNPB(Recurrent Neural Network with Parametric Bias)で学習させている。得られたPBノードの値が音響事象を表現し、記憶している。音あるいは画像(動き)だけが与えられると、RNNPBのPB値を求め、最も近いPB値に基づいて動作と音を真似する。この結果、音だけから動きを模倣する挙動が生成でき、動きから音を口真似することができることを確認した。簡単な実験ではあるが、音響的テクスチャと画像テクスチャの統合による音響事象認識の可能性が示せた。特に、共感覚の工学的実現の糸口をつかむことができた。
|