2023 Fiscal Year Research-status Report
Compressed learning: theory and application of data compression technique that allows direct learning from optimally encoded data
Project/Area Number |
23K11233
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
坂本 比呂志 九州工業大学, 大学院情報工学研究院, 教授 (50315123)
|
Project Period (FY) |
2023-04-01 – 2028-03-31
|
Keywords | 機械学習 / 準同型暗号 / MPC / 特徴選択 / 生成モデル / 距離計算 |
Outline of Annual Research Achievements |
大規模データを情報理論的下限まで圧縮して,それを復号せず高速な情報処理を可能にする技術を圧縮情報処理と呼ぶ.本研究では,このような可変長符号から直接学習を可能にする圧縮学習の理論を構築することで圧縮情報処理の世界を拡張し,文字列データや画像などの様々なドメインにおいて圧縮学習のアプリケーションを実装する.従来手法は圧縮アルゴリズムが一時的に生成する中間符号(固定長符号)を用いており,最適な符号から学習を行うものではなく,また,学習の高速化やメモリの削減にはほとんど寄与しない.さらに,それらの固定長符号は問題によって異なる形式を持つため,圧縮学習の統一的な枠組みが存在しない.本研究はこれらの課題を解決するために,学習可能な符号化手法と圧縮学習アルゴリズムを実現し,機械翻訳や画像のデザイン生成などの分野でアプリケーションを実装する.今年度は,学習データのドメインと符号化の様々な組み合わせについて圧縮学習の可能性について検討した.その結果,予備的な成果を得られ,これまでの成果を国際会議等で発表している.それぞれの成果を簡潔にまとめると,①秘密分散法による画像の秘匿計算,②特徴選択の秘匿計算の高速化による機械学習の前処理への応用,③暗号化されたJPEG画像の直接高速計算と保護されたデータからの機械学習への応用等の研究テーマに分類される.①と③では,著作権のある画像データの有効利用を目指した研究であり,②では,個人情報が多く含まれているテキストデータやトランザクションデータを事前に安全に前処理することで,その後の知識処理の精度や学習効率を向上させることが可能となる.本研究では,これらの課題に対して効率的なアルゴリズムを実装し,実用的な計算時間で実行できることを確認した.次年度は,この実験を大規模化し,様々な分野への応用を検討する.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究は下記の課題を解決することを目指している. 【圧縮学習の理論の構築】①可変長符号からの学習,②圧縮データ上の距離関数の設計,③プライバシー保護計算への拡張 【実データにおける有効性の検証とアプリケーションの実装】④ニューラル翻訳への応用,⑤マイナー言語の機械翻訳への応用,⑥画像生成モデルへの応用,⑦デザインの生成モデル これらのうち,①については現在ではまだ固定長符号からの学習にとどまっており,今後,開発したアルゴリズムをハフマン符号上に拡張する.②については従来の編集距離の拡張を画素ベースの計算から周波数成分へ適用し,精度向上を確認している.③については,公開鍵暗号ベースのものとMPCモデルの両方について検討中である.④と⑤については,本研究の基礎となったアルゴリズムを改良したものを実装し,一部の学習データについて翻訳精度の改善を確認した.⑥と⑦については,低資源学習データからのアルゴリズムと本研究の手法を組み合わせることを検討中である.
|
Strategy for Future Research Activity |
【圧縮学習の理論の構築】①可変長符号からの学習,②圧縮データ上の距離関数の設計,③プライバシー保護計算への拡張 【実データにおける有効性の検証とアプリケーションの実装】④ニューラル翻訳への応用,⑤マイナー言語の機械翻訳への応用,⑥画像生成モデルへの応用,⑦デザインの生成モデル 上記の研究課題について,①についてはハフマン符号から固定長符号の変換で必要最小限の復号によって学習が可能となるアルゴリズムを固定長符号ベースのアルゴリズムを改良することで実現する.②と③についてはこのまま研究を進める.④と⑤については,学習データを十分に用意できていないので,数十種類の言語族に対して学習データを前処理するアルゴリズムを適用して学習データをなるべく多く用意する.⑥と⑦については,低資源からの画像生成アルゴリズムに圧縮データから学習する機構を埋め込んで,その性能を確認する.
|
Causes of Carryover |
1年目は,複数の研究課題と複数の学習データに対してそれぞれ独立に新規のアルゴリズムを設計することで,当初よりも多くの理論的な進展が得られた.一方で,それらのアルゴリズムそれぞれに対して,理論的な性能や予備的な実験結果を確認することが必要となったため,大規模実験は次年度以降に後ろ倒しすることになった.よって,実験用計算機の購入を次年度以降に延期し,大規模データに対する実験は次年度以降に実施することになり,予定していた予算の支出は発生しなかった.
|