2018 Fiscal Year Annual Research Report
Optimal Construction of Compression-based Feature Space
Project/Area Number |
15K00148
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
古賀 久志 電気通信大学, 大学院情報理工学研究科, 准教授 (40361836)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | データ圧縮 / 圧縮ベースパターン認識 / 特徴空間 / 時系列データ |
Outline of Annual Research Achievements |
まず、研究のメインテーマである圧縮率ベース特徴空間に関して、空間軸を定める圧縮辞書間で共通単語を排除して軸の独立性を高めることに加え(これは前年度までの研究成果)、各々の圧縮辞書が保有する単語数を均等化する手法を提案した。この手法の目的は、単語数が少ない辞書の排除である。単語数が少ない辞書は多くのデータをほとんど圧縮できないため、対応する次元の特徴量(圧縮率)がデータによらない定数に縮退し、表現能力が低下するという問題を引き起こす。提案手法はこの現象を防止する。地表面画像分類に提案手法を適用した結果、単語数均衡化は、単に共通単語を削除する手法よりも3%認識精度を向上した。また、本研究課題以前の既存手法と比べると、認識精度が66.6%から74.7%(共通単語削除+単語数均衡化)に向上し、本研究課題を通して認識精度を8%以上改善できた。
また、本年度は、圧縮ベースの時系列解析にも取り組んだ。このテーマに関しては、時系列データをRecurrence Plotと呼ばれる特徴画像に変換し、時系列データ間の類似性を、特徴画像の類似度から測るRPCDという手法が知られている。RPCDでは、2枚の特徴画像の類似度を、2枚の画像を連結したmpegビデオの圧縮後のファイルサイズから計算する。市販のmpegエンコーダさえあれば容易に実装できるのがRPCDの利点である。その一方で、認識精度に関する分析はこれまでなされていない。本研究では、mpeg圧縮におけるq値と呼ばれる量子化係数が、RPCD手法の認識精度を激しく変化させることを明らかにした。そして、適切なq値を学習データから学習することにより、テストデータの認識精度を約4%改善できることを示した。
|
Research Products
(2 results)