圧縮学習：最適な可変長符号からの直接学習を可能にする理論の構築と実装

研究課題

研究課題/領域番号	23K11233
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	九州工業大学
研究代表者	坂本比呂志九州工業大学, 大学院情報工学研究院, 教授 (50315123)
研究期間 (年度)	2023-04-01 – 2028-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円) 2027年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2026年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2025年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2024年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
キーワード	機械学習 / 準同型暗号 / MPC / 特徴選択 / 生成モデル / 距離計算 / データ圧縮 / 可変長符号 / 知識発見
研究開始時の研究の概要	圧縮されたデータから様々な情報処理を行う技術を圧縮情報処理と呼ぶ。本研究はその中でも特に機械学習に焦点を当てた研究を行う。これまでの機械学習（特に深層学習）では大量のデータから訓練を行う必要があり、時間やメモリ、消費電力などの大量の計算機資源を必要としていた。ここで、訓練データを圧縮してしかもそれを復号することなく直接学習を行うことができれば、さまざまな問題点を解決することが可能となり、そのような圧縮学習を実現するアルゴリズムやアプリケーションの創出を目標とする。研究代表者の先行研究で得られた知見をもとに、機械翻訳や画像生成の分野で効率的な圧縮学習を実現する。
研究実績の概要	大規模データを情報理論的下限まで圧縮して，それを復号せず高速な情報処理を可能にする技術を圧縮情報処理と呼ぶ．本研究では，このような可変長符号から直接学習を可能にする圧縮学習の理論を構築することで圧縮情報処理の世界を拡張し，文字列データや画像などの様々なドメインにおいて圧縮学習のアプリケーションを実装する．従来手法は圧縮アルゴリズムが一時的に生成する中間符号（固定長符号）を用いており，最適な符号から学習を行うものではなく，また，学習の高速化やメモリの削減にはほとんど寄与しない．さらに，それらの固定長符号は問題によって異なる形式を持つため，圧縮学習の統一的な枠組みが存在しない．本研究はこれらの課題を解決するために，学習可能な符号化手法と圧縮学習アルゴリズムを実現し，機械翻訳や画像のデザイン生成などの分野でアプリケーションを実装する．今年度は，学習データのドメインと符号化の様々な組み合わせについて圧縮学習の可能性について検討した．その結果，予備的な成果を得られ，これまでの成果を国際会議等で発表している．それぞれの成果を簡潔にまとめると，①秘密分散法による画像の秘匿計算，②特徴選択の秘匿計算の高速化による機械学習の前処理への応用，③暗号化されたJPEG画像の直接高速計算と保護されたデータからの機械学習への応用等の研究テーマに分類される．①と③では，著作権のある画像データの有効利用を目指した研究であり，②では，個人情報が多く含まれているテキストデータやトランザクションデータを事前に安全に前処理することで，その後の知識処理の精度や学習効率を向上させることが可能となる．本研究では，これらの課題に対して効率的なアルゴリズムを実装し，実用的な計算時間で実行できることを確認した．次年度は，この実験を大規模化し，様々な分野への応用を検討する．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由本研究は下記の課題を解決することを目指している．【圧縮学習の理論の構築】①可変長符号からの学習，②圧縮データ上の距離関数の設計，③プライバシー保護計算への拡張【実データにおける有効性の検証とアプリケーションの実装】④ニューラル翻訳への応用，⑤マイナー言語の機械翻訳への応用，⑥画像生成モデルへの応用，⑦デザインの生成モデルこれらのうち，①については現在ではまだ固定長符号からの学習にとどまっており，今後，開発したアルゴリズムをハフマン符号上に拡張する．②については従来の編集距離の拡張を画素ベースの計算から周波数成分へ適用し，精度向上を確認している．③については，公開鍵暗号ベースのものとMPCモデルの両方について検討中である．④と⑤については，本研究の基礎となったアルゴリズムを改良したものを実装し，一部の学習データについて翻訳精度の改善を確認した．⑥と⑦については，低資源学習データからのアルゴリズムと本研究の手法を組み合わせることを検討中である．
今後の研究の推進方策	【圧縮学習の理論の構築】①可変長符号からの学習，②圧縮データ上の距離関数の設計，③プライバシー保護計算への拡張【実データにおける有効性の検証とアプリケーションの実装】④ニューラル翻訳への応用，⑤マイナー言語の機械翻訳への応用，⑥画像生成モデルへの応用，⑦デザインの生成モデル上記の研究課題について，①についてはハフマン符号から固定長符号の変換で必要最小限の復号によって学習が可能となるアルゴリズムを固定長符号ベースのアルゴリズムを改良することで実現する．②と③についてはこのまま研究を進める．④と⑤については，学習データを十分に用意できていないので，数十種類の言語族に対して学習データを前処理するアルゴリズムを適用して学習データをなるべく多く用意する．⑥と⑦については，低資源からの画像生成アルゴリズムに圧縮データから学習する機構を埋め込んで，その性能を確認する．

報告書

(1件)

2023 実施状況報告書

研究成果
(4件)

すべて 2023

すべて学会発表 (4件) (うち国際学会 4件)

[学会発表] Texture Image Classification Using Earth Mover’s Distance2023
- 著者名/発表者名
  Reo Otsu, Hiroshi Sakamoto
- 学会等名
  11th International Symposium on Applied Engineering and Sciences
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] Privacy Preserving Feature Selection2023
- 著者名/発表者名
  Koki Wakiyama, Hiroshi Sakamoto, Tomohiro I
- 学会等名
  11th International Symposium on Applied Engineering and Sciences
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] Improved fast image generation from DCT coefficients2023
- 著者名/発表者名
  Yuki Haraguchi, Hiroshi Sakamoto
- 学会等名
  11th International Symposium on Applied Engineering and Sciences
- 関連する報告書
  2023 実施状況報告書
- 国際学会
[学会発表] Privacy-Preserving Machine Learning from JPEG Data2023
- 著者名/発表者名
  Sohei Yamaguchi, Hiroshi Sakamoto
- 学会等名
  11th International Symposium on Applied Engineering and Sciences
- 関連する報告書
  2023 実施状況報告書
- 国際学会

圧縮学習：最適な可変長符号からの直接学習を可能にする理論の構築と実装

研究代表者

坂本 比呂志 九州工業大学, 大学院情報工学研究院, 教授 (50315123)

4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[学会発表] Texture Image Classification Using Earth Mover’s Distance2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Privacy Preserving Feature Selection2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Improved fast image generation from DCT coefficients2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Privacy-Preserving Machine Learning from JPEG Data2023

著者名/発表者名

学会等名

関連する報告書

坂本比呂志九州工業大学, 大学院情報工学研究院, 教授 (50315123)