2012 Fiscal Year Research-status Report
音声認識にとって未知語となる擬態語を含む音声クエリで動作可能な図柄パタン検索法
Project/Area Number |
24500131
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Tokyo University of Technology |
Principal Investigator |
相川 清明 東京工科大学, メディア学部, 教授 (00367202)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 音声検索 / 擬態語 / 擬音語 / 未知語 / パタン検索 / 音響特徴 / 音声認識 / 情報検索 |
Research Abstract |
擬音語・擬態語のような音声認識未知語があっても適切な対象を検索できる方法の研究を進めている。 1、データベース収集:今までに、図柄パタンの音声表現についてはある程度収集していたが、パタンの範囲を拡大し、被験者にパタンの描画と、その音声表現の組を自由に作成してもらってデータを収集した。平成24年度は25名の被験者から561のパタンを収集した。今後さらに収集する予定である。 2、擬態語・擬音語表現分析:パタンの言語表現を収集した結果、337種類が用いられていることが分かった。これを分析した結果、音声認識できない未知語がきわめて多いことが分かった。 3、プラットフォーム作成:応用システムの形態の評価用プラットフォームの作成を行った。音声入力を2系統に分け、音声認識と音響特徴抽出を同時に進行させる。音響特徴抽出はVADによりひとまとまりの音声を切り出して特徴抽出を行う。擬態語、擬音語の場合には音声のスペクトル時系列特徴を用いて、直接パタンを選択する。音声認識可能な語句は描画位置とペンの色などの制御のみとし、それ以外で音響特徴があらかじめ設定したパタンの特徴に該当する場合には、現在の設定で描画を行う。現在のところ、音響特徴にはスペクトル変化率の推移、音声継続時間、それらの時間的関係を用いており、これらの特徴から論理的判断でパタンを選択する。このプラットフォームにより、音響特徴を用いて、ある程度パタンを検索できることを示した。この他に、パタンによるアノテーションをリアルタイムに画像に重畳して表示するプラットフォームを作成した。 4、クエリ収集:複雑な検索条件での音声検索に対処できるようにするため、AND条件での論理表現の言い回しの収集、および、分析を行い、日本音響学会2013年春季研究発表会において発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
1、平成24年度はパタンデータベースの収集に専念したため、効果音については次年度以降で実施することとした。 2、検索応用のプラットフォーム作成においては2種類のシステムを作成でき、計画以上に進展したが評価は不十分であった。 3、クエリ収集については、平成26年度実施予定であった複雑なクエリ収集と分析を行えた点では計画以上の進展があったが、一般的なクエリ収集については今後評価システムに合わせた収集を行うこととした。
|
Strategy for Future Research Activity |
音声認識と音響特徴分析を同時進行させるプラットフォームが作成できたので、単なる検索問題ではなく、検索を応用したデザインツール、および、アノテーションツールとしてさらに評価実験を行いやすいプラットフォームに仕上げる。今後の主な研究項目は以下のとおりである。 1、ピッチ、エネルギーの時間変化などの大局的特徴を含む音響特徴抽出関数を導入し、これを用いたパタンの検索方法を考案する。各種の類似度の評価も含めて検索性能評価を定量的に行い、学会発表を行う。 2、平成24年度にパタンについて行ったように、効果音などの音と音声表現の組み合わせでのデータベースを作成する。さらに、音の擬音語・擬態語音声表現を処理する機能を持つ評価プラットフォームを作成する。 3、音声対話型検索における擬音語・擬態語処理方式を考案し、プラットフォームの作成を行う。
|
Expenditure Plans for the Next FY Research Funding |
1、当初、平成24年度は大型のマルチタッチディスプレイにて作業する予定であったが、想定していたディスプレイが製造中止になり、マルチタッチ入力のできるノートPCを採用することとしたが、予想外に安価であったことで機材費の出費が少なかった。また、Windowsのバージョンが変わったことに伴い、データ収集作業に遅れが出たため、謝金の出費も少なかった。これを考慮し、以下のように研究費を使用する予定である。 2、データベース収集を効率よく行うため、マルチタッチ入力ができるパタン入力装置をさらに増強し、パタンを直接ディジタルデータとして収集できるようにする。 3、効果音などの音は独自に作成する必要が生じたので、収集、作成、および編集を行うためのソフトウエアを購入する。 4、被験者を用いた、パタン、音両面でのデータ収集作業と評価実験を行う。 5、成果の学会発表、論文作成を行う。
|
Research Products
(1 results)