2015 年度実績報告書

ベイズ基準に基づく幾何学的変動に頑健な画像認識モデルの構築

研究課題

研究課題/領域番号	15J08391
研究機関	名古屋工業大学
研究代表者	沢田慶名古屋工業大学, 工学研究科, 特別研究員(DC2)
研究期間 (年度)	2015-04-24 – 2017-03-31
キーワード	画像認識 / 統計モデル / 隠れマルコフモデル / ベイズ基準
研究実績の概要	従来の統計モデルに基づく画像認識手法は，モデルの学習のみに注目して研究されることが多い．実際に統計モデルを学習するためには画像の切り出し・各種正規化・特徴抽出などの事前処理が必要となる．これらの事前処理は，認識対象に強く依存するため，人手による画像の切り出しやヒューリスティックな正規化処理が用いられてきたが，認識対象ごとにヒューリスティックな方法で事前処理を設計することは高いコストを必要とする．本研究では，認識対象の位置や大きさの正規化をモデル化することができる分離型格子隠れマルコフモデル (SL-HMM) や，SL-HMMと因子分析を統合した可変固有画像モデル (HMEM) に注目して，幾何学的変動に頑健なモデルの高精度化を行う．これらのモデルは従来では煩雑であった事前処理とモデルの学習を同時に最適化することができるため，認識対象ごとに事前処理を設計する必要がなく汎用性が高い手法である．本年度は，ベイズ基準の近似計算を行う変分ベイズ法に確定的アニーリングEMアルゴリズムを適用した．これにより，変分ベイズ法の逐次推定による初期値に依存した局所最適解の問題を緩和することができた．この研究成果については，論文としてまとめ論文誌に投稿した．また，幾何学的変動に頑健なモデル (SL-HMM) のモデル構造の拡張についても検討した．SL-HMMの出力分布は単一ガウス分布で表現されてきたが，単一ガウス分布では分布の表現能力が不十分な可能性がある．そこで，出力分布を混合ガウス分布に拡張することにより，複雑な分布表現を可能とするモデル構造を提案した．さらに，パラメータ共有の検討により様々な学習データ量・特徴量・認識タスクに適したモデル構造の選択が可能となった．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由研究計画通りモデル構造の拡張，学習アルゴリズムの改良，様々な画像認識タスクによる実験を行った．研究成果については，論文誌に投稿した．
今後の研究の推進方策	今後もモデル構造の拡張，学習アルゴリズムの改良，様々な画像認識タスクによる実験を行い画像認識モデルの高精度化を目指す．また，モデル構造の自動設定についても検討する．

研究成果
(7件)

すべて 2016 2015 その他

すべて学会発表 (6件) (うち国際学会 1件) 備考 (1件)

[学会発表] 分離型格子HMMによる特徴量生成を用いた識別モデルに基づく画像認識2016
- 著者名/発表者名
  都築良成，沢田慶，橋本佳，南角吉彦，徳田恵一
- 学会等名
  電子情報通信学会技術研究報告
- 発表場所
  東京
- 年月日
  2016-06-13 – 2016-06-13
[学会発表] 統計的パラメトリック音声合成のためのオーディオブックを用いた学習コーパス自動構築2016
- 著者名/発表者名
  沢田慶，伊神和輝，浅井千明，佐藤雄介，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- 学会等名
  日本音響学会2016年春季研究発表会
- 発表場所
  神奈川
- 年月日
  2016-03-09 – 2016-03-11
[学会発表] 画像認識のための混合出力分布を用いた分離型格子HMMにおけるパラメータ共有構造の検討2016
- 著者名/発表者名
  助川正人，沢田慶，橋本佳，南角吉彦，徳田恵一
- 学会等名
  電子情報通信学会技術研究報告
- 発表場所
  福岡
- 年月日
  2016-02-21 – 2016-02-22
[学会発表] 発音情報が未知の言語におけるテキスト音声合成システム構築法の評価2015
- 著者名/発表者名
  沢田慶，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- 学会等名
  電子情報通信学会技術研究報告
- 発表場所
  愛知
- 年月日
  2015-12-02 – 2015-12-03
[学会発表] 発音情報が未知の言語におけるテキスト音声合成システム構築法の検討2015
- 著者名/発表者名
  沢田慶，橋本佳，大浦圭一郎，南角吉彦，徳田恵一
- 学会等名
  日本音響学会2015年秋季研究発表会
- 発表場所
  福島
- 年月日
  2015-09-16 – 2015-09-18
[学会発表] The NITECH HMM-based text-to-speech system for the Blizzard Challenge 20152015
- 著者名/発表者名
  Kei Sawada, Kei Hashimoto, Keiichiro Oura, and Keiichi Tokuda
- 学会等名
  Blizzard Challenge 2015 Workshop
- 発表場所
  Berlin, Germany
- 年月日
  2015-09-11 – 2015-09-11
- 国際学会
[備考] 徳田・南角研究室ホームページ
- URL
  http://www.sp.nitech.ac.jp/

2015 年度 実績報告書

ベイズ基準に基づく幾何学的変動に頑健な画像認識モデルの構築

研究代表者

沢田 慶 名古屋工業大学, 工学研究科, 特別研究員(DC2)

現在までの達成度 (区分)

理由

研究成果

[学会発表] 分離型格子HMMによる特徴量生成を用いた識別モデルに基づく画像認識2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 統計的パラメトリック音声合成のためのオーディオブックを用いた学習コーパス自動構築2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 画像認識のための混合出力分布を用いた分離型格子HMMにおけるパラメータ共有構造の検討2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 発音情報が未知の言語におけるテキスト音声合成システム構築法の評価2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 発音情報が未知の言語におけるテキスト音声合成システム構築法の検討2015

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] The NITECH HMM-based text-to-speech system for the Blizzard Challenge 20152015

著者名/発表者名

学会等名

発表場所

年月日

[備考] 徳田・南角研究室ホームページ

URL

2015 年度実績報告書

沢田慶名古屋工業大学, 工学研究科, 特別研究員(DC2)