2023 年度実施状況報告書

圧縮学習：最適な可変長符号からの直接学習を可能にする理論の構築と実装

研究課題

研究課題/領域番号	23K11233
研究機関	九州工業大学
研究代表者	坂本比呂志九州工業大学, 大学院情報工学研究院, 教授 (50315123)
研究期間 (年度)	2023-04-01 – 2028-03-31
キーワード	機械学習 / 準同型暗号 / MPC / 特徴選択 / 生成モデル / 距離計算
研究実績の概要	大規模データを情報理論的下限まで圧縮して，それを復号せず高速な情報処理を可能にする技術を圧縮情報処理と呼ぶ．本研究では，このような可変長符号から直接学習を可能にする圧縮学習の理論を構築することで圧縮情報処理の世界を拡張し，文字列データや画像などの様々なドメインにおいて圧縮学習のアプリケーションを実装する．従来手法は圧縮アルゴリズムが一時的に生成する中間符号（固定長符号）を用いており，最適な符号から学習を行うものではなく，また，学習の高速化やメモリの削減にはほとんど寄与しない．さらに，それらの固定長符号は問題によって異なる形式を持つため，圧縮学習の統一的な枠組みが存在しない．本研究はこれらの課題を解決するために，学習可能な符号化手法と圧縮学習アルゴリズムを実現し，機械翻訳や画像のデザイン生成などの分野でアプリケーションを実装する．今年度は，学習データのドメインと符号化の様々な組み合わせについて圧縮学習の可能性について検討した．その結果，予備的な成果を得られ，これまでの成果を国際会議等で発表している．それぞれの成果を簡潔にまとめると，①秘密分散法による画像の秘匿計算，②特徴選択の秘匿計算の高速化による機械学習の前処理への応用，③暗号化されたJPEG画像の直接高速計算と保護されたデータからの機械学習への応用等の研究テーマに分類される．①と③では，著作権のある画像データの有効利用を目指した研究であり，②では，個人情報が多く含まれているテキストデータやトランザクションデータを事前に安全に前処理することで，その後の知識処理の精度や学習効率を向上させることが可能となる．本研究では，これらの課題に対して効率的なアルゴリズムを実装し，実用的な計算時間で実行できることを確認した．次年度は，この実験を大規模化し，様々な分野への応用を検討する．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本研究は下記の課題を解決することを目指している．【圧縮学習の理論の構築】①可変長符号からの学習，②圧縮データ上の距離関数の設計，③プライバシー保護計算への拡張【実データにおける有効性の検証とアプリケーションの実装】④ニューラル翻訳への応用，⑤マイナー言語の機械翻訳への応用，⑥画像生成モデルへの応用，⑦デザインの生成モデルこれらのうち，①については現在ではまだ固定長符号からの学習にとどまっており，今後，開発したアルゴリズムをハフマン符号上に拡張する．②については従来の編集距離の拡張を画素ベースの計算から周波数成分へ適用し，精度向上を確認している．③については，公開鍵暗号ベースのものとMPCモデルの両方について検討中である．④と⑤については，本研究の基礎となったアルゴリズムを改良したものを実装し，一部の学習データについて翻訳精度の改善を確認した．⑥と⑦については，低資源学習データからのアルゴリズムと本研究の手法を組み合わせることを検討中である．
今後の研究の推進方策	【圧縮学習の理論の構築】①可変長符号からの学習，②圧縮データ上の距離関数の設計，③プライバシー保護計算への拡張【実データにおける有効性の検証とアプリケーションの実装】④ニューラル翻訳への応用，⑤マイナー言語の機械翻訳への応用，⑥画像生成モデルへの応用，⑦デザインの生成モデル上記の研究課題について，①についてはハフマン符号から固定長符号の変換で必要最小限の復号によって学習が可能となるアルゴリズムを固定長符号ベースのアルゴリズムを改良することで実現する．②と③についてはこのまま研究を進める．④と⑤については，学習データを十分に用意できていないので，数十種類の言語族に対して学習データを前処理するアルゴリズムを適用して学習データをなるべく多く用意する．⑥と⑦については，低資源からの画像生成アルゴリズムに圧縮データから学習する機構を埋め込んで，その性能を確認する．
次年度使用額が生じた理由	1年目は，複数の研究課題と複数の学習データに対してそれぞれ独立に新規のアルゴリズムを設計することで，当初よりも多くの理論的な進展が得られた．一方で，それらのアルゴリズムそれぞれに対して，理論的な性能や予備的な実験結果を確認することが必要となったため，大規模実験は次年度以降に後ろ倒しすることになった．よって，実験用計算機の購入を次年度以降に延期し，大規模データに対する実験は次年度以降に実施することになり，予定していた予算の支出は発生しなかった．

研究成果
(4件)

すべて 2023

すべて学会発表 (4件) (うち国際学会 4件)

[学会発表] Texture Image Classification Using Earth Mover’s Distance2023
- 著者名/発表者名
  Reo Otsu, Hiroshi Sakamoto
- 学会等名
  11th International Symposium on Applied Engineering and Sciences
- 国際学会
[学会発表] Privacy Preserving Feature Selection2023
- 著者名/発表者名
  Koki Wakiyama, Hiroshi Sakamoto, Tomohiro I
- 学会等名
  11th International Symposium on Applied Engineering and Sciences
- 国際学会
[学会発表] Improved fast image generation from DCT coefficients2023
- 著者名/発表者名
  Yuki Haraguchi, Hiroshi Sakamoto
- 学会等名
  11th International Symposium on Applied Engineering and Sciences
- 国際学会
[学会発表] Privacy-Preserving Machine Learning from JPEG Data2023
- 著者名/発表者名
  Sohei Yamaguchi, Hiroshi Sakamoto
- 学会等名
  11th International Symposium on Applied Engineering and Sciences
- 国際学会

2023 年度 実施状況報告書

圧縮学習：最適な可変長符号からの直接学習を可能にする理論の構築と実装

研究代表者

坂本 比呂志 九州工業大学, 大学院情報工学研究院, 教授 (50315123)

現在までの達成度 (区分)

理由

研究成果

[学会発表] Texture Image Classification Using Earth Mover’s Distance2023

著者名/発表者名

学会等名

[学会発表] Privacy Preserving Feature Selection2023

著者名/発表者名

学会等名

[学会発表] Improved fast image generation from DCT coefficients2023

著者名/発表者名

学会等名

[学会発表] Privacy-Preserving Machine Learning from JPEG Data2023

著者名/発表者名

学会等名

2023 年度実施状況報告書

坂本比呂志九州工業大学, 大学院情報工学研究院, 教授 (50315123)