Compressed learning: theory and application of data compression technique that allows direct learning from optimally encoded data
Project/Area Number |
23K11233
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
坂本 比呂志 九州工業大学, 大学院情報工学研究院, 教授 (50315123)
|
Project Period (FY) |
2023-04-01 – 2028-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000)
Fiscal Year 2027: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2026: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2025: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2024: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
|
Keywords | 機械学習 / 準同型暗号 / MPC / 特徴選択 / 生成モデル / 距離計算 / データ圧縮 / 可変長符号 / 知識発見 |
Outline of Research at the Start |
圧縮されたデータから様々な情報処理を行う技術を圧縮情報処理と呼ぶ。本研究はその中でも特に機械学習に焦点を当てた研究を行う。これまでの機械学習(特に深層学習)では大量のデータから訓練を行う必要があり、時間やメモリ、消費電力などの大量の計算機資源を必要としていた。ここで、訓練データを圧縮してしかもそれを復号することなく直接学習を行うことができれば、さまざまな問題点を解決することが可能となり、そのような圧縮学習を実現するアルゴリズムやアプリケーションの創出を目標とする。研究代表者の先行研究で得られた知見をもとに、機械翻訳や画像生成の分野で効率的な圧縮学習を実現する。
|
Outline of Annual Research Achievements |
大規模データを情報理論的下限まで圧縮して,それを復号せず高速な情報処理を可能にする技術を圧縮情報処理と呼ぶ.本研究では,このような可変長符号から直接学習を可能にする圧縮学習の理論を構築することで圧縮情報処理の世界を拡張し,文字列データや画像などの様々なドメインにおいて圧縮学習のアプリケーションを実装する.従来手法は圧縮アルゴリズムが一時的に生成する中間符号(固定長符号)を用いており,最適な符号から学習を行うものではなく,また,学習の高速化やメモリの削減にはほとんど寄与しない.さらに,それらの固定長符号は問題によって異なる形式を持つため,圧縮学習の統一的な枠組みが存在しない.本研究はこれらの課題を解決するために,学習可能な符号化手法と圧縮学習アルゴリズムを実現し,機械翻訳や画像のデザイン生成などの分野でアプリケーションを実装する.今年度は,学習データのドメインと符号化の様々な組み合わせについて圧縮学習の可能性について検討した.その結果,予備的な成果を得られ,これまでの成果を国際会議等で発表している.それぞれの成果を簡潔にまとめると,①秘密分散法による画像の秘匿計算,②特徴選択の秘匿計算の高速化による機械学習の前処理への応用,③暗号化されたJPEG画像の直接高速計算と保護されたデータからの機械学習への応用等の研究テーマに分類される.①と③では,著作権のある画像データの有効利用を目指した研究であり,②では,個人情報が多く含まれているテキストデータやトランザクションデータを事前に安全に前処理することで,その後の知識処理の精度や学習効率を向上させることが可能となる.本研究では,これらの課題に対して効率的なアルゴリズムを実装し,実用的な計算時間で実行できることを確認した.次年度は,この実験を大規模化し,様々な分野への応用を検討する.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究は下記の課題を解決することを目指している. 【圧縮学習の理論の構築】①可変長符号からの学習,②圧縮データ上の距離関数の設計,③プライバシー保護計算への拡張 【実データにおける有効性の検証とアプリケーションの実装】④ニューラル翻訳への応用,⑤マイナー言語の機械翻訳への応用,⑥画像生成モデルへの応用,⑦デザインの生成モデル これらのうち,①については現在ではまだ固定長符号からの学習にとどまっており,今後,開発したアルゴリズムをハフマン符号上に拡張する.②については従来の編集距離の拡張を画素ベースの計算から周波数成分へ適用し,精度向上を確認している.③については,公開鍵暗号ベースのものとMPCモデルの両方について検討中である.④と⑤については,本研究の基礎となったアルゴリズムを改良したものを実装し,一部の学習データについて翻訳精度の改善を確認した.⑥と⑦については,低資源学習データからのアルゴリズムと本研究の手法を組み合わせることを検討中である.
|
Strategy for Future Research Activity |
【圧縮学習の理論の構築】①可変長符号からの学習,②圧縮データ上の距離関数の設計,③プライバシー保護計算への拡張 【実データにおける有効性の検証とアプリケーションの実装】④ニューラル翻訳への応用,⑤マイナー言語の機械翻訳への応用,⑥画像生成モデルへの応用,⑦デザインの生成モデル 上記の研究課題について,①についてはハフマン符号から固定長符号の変換で必要最小限の復号によって学習が可能となるアルゴリズムを固定長符号ベースのアルゴリズムを改良することで実現する.②と③についてはこのまま研究を進める.④と⑤については,学習データを十分に用意できていないので,数十種類の言語族に対して学習データを前処理するアルゴリズムを適用して学習データをなるべく多く用意する.⑥と⑦については,低資源からの画像生成アルゴリズムに圧縮データから学習する機構を埋め込んで,その性能を確認する.
|
Report
(1 results)
Research Products
(4 results)