社会が多様化、複雑化し、協調活動が不可欠となり、さらに広域化によって遠隔地間での通信が重要となってきた。これまでの計算機利用は分析的であったが、かかる協調活動を支援するためには、大まかな判断支援が重要となる。従来の情報処理は文字、画像中心で展開されたが、通信負担を考えると音を主に、画像を副に考えるほうが実用化により役立つと期待される。 そこで本研究では、音声特徴を総合的、大局的にとらえる。本研究では、「感情」を、外部からの刺激によって人の心に生起される意識的状態である「心の感情」と、この真の感情とは別に理性や経験学習で制御される「メッセージとしての感情」に大別する。「メッセージとしての感情」は感情を相手に対して効果的、かつ正確に伝えるためにパターン化されており、「心の感情」よりも認識されやすいと考えた。 本研究では、人はメッセージとしての感情を時系列上でパターン化し、感情や音声で表出していると考えた。開発したシステムは(1)音声情報のディジタル化、(2)ピッチ周波数、短時間エネルギー、音節、最大周波数の解析、(3)変動量の時系列パターン化、(4)各感情表出の特徴パターンの抽出により構成されている。 音声情報のディジタル化では、音声情報をサンプル周波数11KHz、量子化数8ビットでディジタルデータに変換する。ピッチ周波数はノンパラメトリック法のケプストラム法を用いて解析した。短時間エネルギーの解析には、音圧サンプル値の2乗和を用いた。音節についてはまず短時間エネルギーを算出し、一度平滑化した後に変動の極大、極小値を求め、極小値の間隔を音節とし、極大値をその音節のピークとする。 この方法で日本人、外国人も含めて怒りの抽出に成功した。
|