2021 Fiscal Year Annual Research Report
高次元・大規模・多ドメインデータの特徴抽出と情報統合による統計的学習
Project/Area Number |
19H04071
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
金森 敬文 東京工業大学, 情報理工学院, 教授 (60334546)
|
Co-Investigator(Kenkyū-buntansha) |
熊谷 亘 東京大学, 大学院工学系研究科(工学部), 特任助教 (20747167)
竹之内 高志 政策研究大学院大学, 政策研究科, 教授 (50403340)
松井 孝太 名古屋大学, 医学系研究科, 講師 (50737111)
川島 孝行 東京工業大学, 情報理工学院, 助教 (60846210)
武田 朗子 東京大学, 大学院情報理工学系研究科, 教授 (80361799)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Keywords | 機械学習 / 数理統計学 |
Outline of Annual Research Achievements |
本年度は,多ドメイン学習において不変性に着目した新しい学習パラダイムの端緒となる研究を開始し,数値的にそのアイデアの有用性を確認した.まず,ドメイン間の違いをデータ分布の違いとして定式化し,ドメイン間の乖離度を適切に計測するための理論的基礎を構築することを目指し,共同研究者らと議論を行った.データの標本空間がドメイン間で共有されている場合には,標準的な方法を用いることが可能である.例えば,高度に発展している統計的ダイバージェンスによる方法などがある.ダイバージェンスについては生成モデルに対する深層ニューラルネットワークによる推定法の進展があり,そのアイデアを用いてさらに複雑なデータドメインを扱うための統計的方法を構築するなどの方向性について集中的に考察した.また,単ドメインにおいて深層ニューラルネットワークでデータ解析を行う学習アルゴリズムをに対して,不確実性を評価するための実践的方法について研究を進めた.深層ニューラルネットワークの学習では,過学習を避けるためにドロップアウトと呼ばれる学習が用いられることがよくあるが,そこではアルゴリズムにランダムネスが導入される.そのランダムネスを事前分布として解釈することでベイズ事後分布を近似的に計算することが可能になる.既存研究のこれらの発展を受け,我々の研究グループでは深層ニューラルネットワークの各層を信号が伝播するときの不確実性を逐次的に計算する手法を開発した.これにより,データを能動的に取得して学習することで必要なデータ数を大幅に削減する能動学習を高い信頼性で実行することが可能になる.通常用いられるフィードフォワード型だけでなく,レカレント型のニューラルネットワークに対しても同様の不確実性評価の方法を確率した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では,データサイズ,次元,タイプなどが異なる多様なデータを用いて,予測や推論,構造推定など複数のタスクを行うための学習アルゴリズムを開発することを目指している.とくに高い関心を持って注力しているのは,数理的な性質を解明し,その成果を学習アルゴリズムの設計に応用する点である.理論的に腱固な解析を行うことで,予測精度を向上させるためのハイパーパラメータの調整が容易になるなど,さらなる性能向上につなげることが可能になる.多様な多ドメインデータを扱う上で重要なことは,ドメイン間の統計的な性質を適切に把握することである.応用例として,解像度の異なる画像データ,音声データ,タグ,その他の付加データからなるヘテロなデータを用いた関連性分析などの知見を取り入れ,検索や推薦システムの高精度化へとつなげていくことを目指して,研究をさらに推進している.これまで単一ドメイン学習として,複雑なデータ分布の統計的推定,高次元データに対する深層ニューラルネットワークによるクラスタリング,ロバスト学習などについて研究を進めた.また多ドメイン学習では,データドメインの情報統合に関する重要な問題である辞書学習,多ドメイン間のデータ共有による半教師つき学習,深層ニューラルネットワークの不確実性評価のための実践的学習アルゴリズムの開発などを行ってきた.従来の伝統的な数理統計学の課題を着実に解決するだけでなく,近年の機械学習の発展を支えている深層学習についても研究を進めており,とくに高次元の複雑なデータに対して一定の成果が得られている.さらに,多ドメイン学習では不変特徴量というアイデアを共同研究者らと議論し,今後のさらなる進展が期待される.以上のように,単ドメイン学習と多ドメイン学習の両面において,研究が順調に進んでいると判断することができる.
|
Strategy for Future Research Activity |
今後,関連する研究テーマとしては,単ドメインにおけるデータを解析するため学習アルゴリズムを,非一様な多ドメイン学習に展開するための統一的な方法論を確立することである.まず,ドメイン間の違いをデータ分布の違いとして定式化し,ドメイン間の乖離度を適切に計測するための方法と実装について研究を進める.データの標本空間がドメイン間で共有されている場合であっても,高次元標本空間の場合には適切なドメインマッチングが必要である.共通する不変なデータ構造を推定し抽出することで,適切なデータ解析を行うことができる.ここで問題となるのは,「不変性」を実データに則して適切に定義し,その特定や抽出を効率的に行うことである.現在,適切な分布間距離に基づく不変構造の学習について研究を推進している.これまで培ってきた単ドメインにおける機械学習アルゴリズムを,不変構造を有する非一様な多ドメイン学習に適用するパラダイムについて,共同研究者らと議論している.この研究の方向性は,機械学習の適用範囲が飛躍的に拡大することを意味し,多ドメイン学習における研究としての意義が極めて大きいと考えられる.また上記とは異なる研究の方向性として,近年,ドメイン間類似度のロバスト統計への応用が研究され始めている.我々の最近の研究,すなわちカーネル法の研究や境界のある場合の確率密度推定の研究で培ってきた統計的推論の技術が,ロバスト統計に対する新しいアプローチと関連していることが理解されつつある.ここ数年でいくつかの研究グループから,古典的なロバスト統計手法の計算効率を深層ニューラルネットワークなどを用いて向上させる研究成果が発表されている.今後の我々の研究では,分布制約を取り除き,広範囲のデータ分布に対して適用可能な方法論へと発展させることを計画している.このようにいくつかのテーマを並行して考察を深め,発展させることを目指す.
|