2022 Fiscal Year Annual Research Report
高次元・大規模・多ドメインデータの特徴抽出と情報統合による統計的学習
Project/Area Number |
19H04071
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
金森 敬文 東京工業大学, 情報理工学院, 教授 (60334546)
|
Co-Investigator(Kenkyū-buntansha) |
熊谷 亘 東京大学, 大学院工学系研究科(工学部), 特任助教 (20747167)
竹之内 高志 政策研究大学院大学, 政策研究科, 教授 (50403340)
松井 孝太 名古屋大学, 医学系研究科, 講師 (50737111)
川島 孝行 東京工業大学, 情報理工学院, 助教 (60846210)
武田 朗子 東京大学, 大学院情報理工学系研究科, 教授 (80361799)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Keywords | 機械学習 / 数理統計 |
Outline of Annual Research Achievements |
本研究では,データサイズ,次元,タイプなどが異なる多様なデータを用いて,予測や推論,構造推定など複数のタスクを行うための学習アルゴリズムを,数理な知見に基づいてい提案,開発することを目指している.理論的解析を行うことで,予測精度を向上させるためのハイパーパラメータの調整などが容易になり,さらなる性能向上につなげることが可能になる.多様な多ドメインデータを扱う上で重要なことは,ドメイン間の統計的な性質を適切に把握することである.応用例として,解像度の異なる画像データ,音声データ,タグ,その他の付加データからなるヘテロなデータを用いた関連性分析などの知見を取り入れ,検索や推薦システムの高精度化へとつなげていくことを目指して,研究をさらに推進している.とくに2022年度は,単ドメインにおけるデータを解析するため学習アルゴリズムを非一様な多ドメイン学習に展開するための統一的な方法論を確立する研究が進展した.まずドメイン間の違いをデータ分布の違いとして定式化し,ドメイン間の乖離度を適切に計測するための方法の開発と実装に取り組んだ.データの標本空間がドメイン間で共有されている場合であっても,高次元標本空間の場合には適切なドメインマッチングが必要である.共通する不変なデータ構造を推定し抽出することで,適切なデータ解析を行うことができる.ここで問題となるのは,「不変性」を実データに則して適切に定義し,その特定や抽出を効率的に行うことである.これまで培ってきた単ドメインにおける機械学習アルゴリズムを,不変構造を有する非一様な多ドメイン学習に適用するパラダイムに関する研究成果を論文としてまとめている段階である.この研究の方向性は,機械学習の適用範囲が飛躍的に拡大することを意味し,多ドメイン学習における研究としての意義が極めて大きいと考えられる.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
これまで,多ドメイン学習において不変性に着目した新しい学習パラダイムを確立することを目指し,研究を推進してきた.まず,ドメイン間の違いを確率分布の違いとして捉え,ドメイン間の乖離度を適切に計測するための理論的基礎を構築した.共同研究者らと議論を行い,データの標本空間がドメイン間で共有されている場合には,標準的な統計的手法を用いることが可能でことを解明した.例えば,高度に発展している統計的ダイバージェンスによる方法を考えると,生成モデルに対する深層ニューラルネットワークによる推定法のアイデアを用いて,さらに複雑なデータドメインを扱うための統計的方法を構築するなどの方向性について集中的に考察した.非漸近論による統計的推定精度の評価において,学習時とは異なる統一的な予測精度評価の尺度を用いることで,さまざまな異なる学習アルゴリズムの統計的信頼性を同一の基準で評価することが可能になった.これにより,敵対的学習のコンセプトに基づく統計手法に関する統計理論を整備し,どの方法が優れているか,適切に判断することが可能になった.また,単ドメイン上での非正則な確率分布の推定について研究を進めた.通常のノンパラメトリック推定ではデータ領域の境界上で深刻なバイアスが生じ,たとえば地理的に打ち切られたデータでは適切な分布推定を行うことが難しい状況であった.共同研究者らと議論を重ね,熱伝導方程式との類似から発展しているノンパラメトリック確率密度推定の方法をより発展させることに成功している.また多ドメイン学習において重要な表現学習の研究においても,我々のグループで大きな進展があった.近年,chatGPTなどで話題になっている生成AIの学習において重要な表現学習の方法である自己教師付き学習において,表現学習と下流タスクの関連に関する定量的な成果が得られた.
|
Strategy for Future Research Activity |
今後の研究の推進方策としては,非一様な多ドメイン学習を数理的に解析し,制御可能な統計学習の方法論を確立することである.データの標本空間がドメイン間で共有されている場合であっても,高次元標本空間の場合には適切なドメインマッチングが必要である.共通する不変なデータ構造を推定し抽出することで,適切なデータ解析を行うことができる.ここで問題となるのは,「不変性」を実データに則して適切に定義し,その特定や抽出を効率的に行うことである.現在,適切な分布間距離に基づく不変構造の学習について研究を推進している.これまで培ってきた単ドメインにおける機械学習アルゴリズムを,不変構造を有する非一様な多ドメイン学習に適用するパラダイムについて,共同研究者らと議論している.さらに,現在集中的に検討している自己教師付き学習における表現学習と下流タスクとの関連についても理論的な性質を解明することを目指す.表現学習における「不変性」の重要性を自己教師つき学習の観点から明らかにするいことは極めて重要な課題である.多数のドメインの集合に共通する不変な表現と,個別のドメインにおいて重要な表現を下流タスクの予測精度の観点から切り分けることで,より現実の問題に適合する多ドメイン学習のフレームワークを提供することが可能になると考えている.さらに最終年度として,これまでの研究成果を実装し,広く応用に展開することは非常に重要である.すでに個別の研究テーマにおいて以下の研究成果が蓄積されている.i) 単ドメインにおいて進展したロバスト学習の方法と敵対的学習との関連に関する研究,ii) 多様なデータ環境におけるドメイン間の不変な特徴量学習に関する研究,iii) 自己教師つき学習における下流タスクと表現学習の定量的理解に関する研究.これらについて,さらなる理論的深化,実装,統合,応用展開を目指す.
|