2017 Fiscal Year Research-status Report
辞書の類似性に着目した圧縮率ベース特徴空間の最適な構築方法の探求
Project/Area Number |
15K00148
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
古賀 久志 電気通信大学, 大学院情報理工学研究科, 准教授 (40361836)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | 辞書間距離 / 圧縮性特徴 / 集合間類似度 |
Outline of Annual Research Achievements |
29年度は、まず圧縮ベースパターン認識のための新しい有効な特徴量の設計に取り組み、新しい特徴量を2つ提案した。(1)通常、圧縮ベースパターン認識では、ファイルを圧縮した時の圧縮率を特徴として使用する。私はさらに圧縮済みのファイルをもう一度圧縮した時の再圧縮率も併用することでパターン認識精度を向上できることを示した。簡潔に述べると、圧縮率は単語の頻度情報を有するのに対し、再圧縮率では単語の順序情報を表現できるので、両者の併用によりパターン認識能力が向上する。(2)圧縮ベースパターン認識におけるデータ間類似度の1つに辞書間距離がある。これは圧縮アルゴリズムが生成する圧縮辞書を元データの要約と見なし、圧縮辞書を比較することで元データ間の類似性を計測するものである。従来の辞書間距離では共通単語数に着目していたが、単語長(文字数)は無視していた。私の研究では共通単語数を数える時に単語長に応じて重み付けすることで画像パターンの認識精度を向上した。 次に集合間類似検索に取り組んだ。圧縮辞書は単語集合であり、集合間類似検索は辞書間距離を高速計算するための要素技術になる。29年度の研究ではまず、共通要素(=単語)数が多い集合をハッシュテーブルを用いて高速検索するアルゴリズムを開発した。ハッシュを用いた集合用の類似検索アルゴリズムは従来より知られているが、本研究では「共通要素数を類似度とする」類似検索をハッシュベースで実現した点が新しい。 最後に、要素が動的に変化する集合をクエリ(問い合わせ点)とする集合間類似検索にも取り組んだ。ここでは、データベース内の集合を、要素をキーとする転置インデックスで管理し、転置インデックスを使って集合間類似度の計算回数を減らし高速化を実現した。実データを用いた実験により、従来手法と比べて処理時間を1/10に短縮できることも示した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
昨年度はメインテーマよりもサブテーマにエフォートをかけた。まず、圧縮ベースパターン認識のための新しい辞書間距離(辞書間非類似度)を設計し、既存の最良の辞書間距離を上回る画像認識精度を達成した。次に、単語群で構成される圧縮辞書の類似性判定の基盤技術となる集合の類似検索に取り組んだ。こちらに関しては、従来手法より10倍以上の高速な検索アルゴリズムの開発に成功した。これら2件の成果は、どちらも査読付きの国際会議に採録され、私としては満足できる研究成果となった。この他にも、集合間類似検索とデータ分類(クラスタリング)について有望な結果が出ており、30年度には科学技術雑誌に投稿できそうである。以上を総合的に鑑みて「おおむね順調に進展している」と判断する。
|
Strategy for Future Research Activity |
30年度は本研究課題の最終年度であり、これまでの研究成果をブラッシュアップしてまとめる時期である。まず、メインテーマである圧縮特徴空間の構成方法については一昨年度に提案済みの手法を改善し、最終版を提示することを目標とする。また、サブテーマに関しては、これまでに提案・開発して来た(1)圧縮ベースパターン認識のため新しい特徴量および(2)集合間類似検索アルゴリズムそれぞれについて実験評価を充実させ、査読付きの学術論文として成果発表することを目指す。なお、最終年度の新規テーマとして圧縮ベースパターン認識における圧縮アルゴリズムをLZWからmpegに変更し、2次元データに特化したパターン認識アルゴリズムを構築することも計画している。
|
Causes of Carryover |
29年度6月に国際会議で発表した圧縮ベースパターン認識用の研究成果と、国内研究会で発表した集合の類似検索に関する研究成果を、前者はジャーナル化し、後者は英語化して国際会議で発表する予定であったが、30年3月までに発表に至らず30年度に予算を繰り越しした。繰り越しした予算は、当初の予定通り、ジャーナル論文の投稿料と国際会議発表のための旅費として使用する。
|
Research Products
(6 results)