2019 Fiscal Year Annual Research Report
データの学習容易性解析に基づく実ケース学習理論の確立
Project/Area Number |
19H04067
|
Research Institution | Kyushu University |
Principal Investigator |
瀧本 英二 九州大学, システム情報科学研究院, 教授 (50236395)
|
Co-Investigator(Kenkyū-buntansha) |
畑埜 晃平 九州大学, 基幹教育院, 准教授 (60404026)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 計算学習理論 / ZDD / ブースティング / 組合せ最適化 / 大規模機械学習 / くずし字認識 |
Outline of Annual Research Achievements |
主に,以下の成果を得た. 1.NZDDと呼ばれる有向グラフを用いて,与えられた訓練データを圧縮表現するデータ構造を提案し,マージンが最大となる超平面分類器を構築する効率の良いアルゴリズムを与えた.このアルゴリズムは,AdaBoost*と呼ばれるブースティングアルゴリズムを完全に模倣するが,各繰り返し過程の計算時間は,訓練データではなくNZDDのサイズにのみ比例するため,圧縮率が高いほど高速に動作する.いくつかの実データを用いてその有効性を確認した. 2.昨年度,NP困難なスケジューリング問題の一つである順序制約付き流れ時間最小化問題を,決定グラフ上の最短路問題に帰着して解く手法を提案したが,制約が少ないほど決定グラフのサイズが指数的に増大し,計算効率が悪くなるという問題があった.本研究では,制約を満たす順序集合(実行可能解集合)上に,ある同値関係を導入し,実行可能解の中で同値類の代表元のみを表す決定グラフを構築すれば十分であることを示した.この決定グラフは,既存手法による決定グラフのサイズを超えることはない一方,制約が非常に少ないときにサイズが極めて小さくなるという性質があるため,計算量を著しく改善することに成功した. 3.深層学習の登場以来,画像や文字認識の技術は近年飛躍的に進展しているが,古文書の認識は,連綿体により書かれたくずし字のセグメンテーション法が確立されていないため,依然として困難である.そこで,画像認識における物体検出の技術を活用することにより,セグメンテーションによる一文字切り出しのフェーズと,切り出された文字の認識のフェーズを分離することなく,これらを同時に学習・認識する新しい手法を提案した.電子情報通信学会のPRMUくずし字認識チャレンジ2019というアルゴリズムコンテストに応募し,総合4位の認識精度を達成し,表彰された.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
圧縮データ上の機械学習は,大規模データに対する機械学習の効率を改善する新しいアプローチとして,最近注目されている.多くの場合,機械学習は最適化を伴うため,圧縮データに対する効率的な最適化技法の構築が重要である.本研究の成果はその先駆けと言えるものであるが,まだ,その適用対象は特殊な線形計画問題に限られている.そこで,データが線形分離可能でない場合でも汎化性能が保証されるソフトマージン最大化や,線形計画問題ではなく2次計画問題を伴うSVMの効率化に取り組み,すでに,種々のアルゴリズムの構築に成功している.現在,実データを用いた有効性の検証を行っているところである.また,これらの手法はそれぞれ,NZDDのまったく異なる活用法に基づいており,理論的にも興味深い. スケジューリング問題などの組合せ最適化問題を,決定グラフ上の最短路問題に帰着するという枠組みは,NP困難な問題に対する実用的なアプローチとして確立しつつある.従来手法では,決定グラフの有効路と実行可能解が1対1対応しなければならないという不文律があったが,本研究の結果は,そこに風穴をあけるものである.特に,同値類のみを圧縮表現するというアイディアは汎用的であるため,より広い組合せ最適化問題のクラスに適用できる可能性があり,今後の進展が期待される.
|
Strategy for Future Research Activity |
1.圧縮データ上の機械学習では,有望な成果がいくつか出始めているので,それぞれ研究を進展させる.特に,大規模な実データに対する有効性の検証実験が不可欠である.ソフトマージン最大化においては,圧縮表現上で元の問題を完全に模倣する定式化は困難であると予想される.したがって,新しい定式化の特徴づけ,特に最適解と汎化性能との関係の解明が重要である. 2.決定グラフを用いた組合せ最適化問題に対し,本研究の成果を踏まえ,さまざまなアプローチを試みる.
|