研究課題/領域番号 |
19H04071
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分60030:統計科学関連
|
研究機関 | 東京工業大学 |
研究代表者 |
金森 敬文 東京工業大学, 情報理工学院, 教授 (60334546)
|
研究分担者 |
熊谷 亘 東京大学, 大学院工学系研究科(工学部), 特任助教 (20747167)
竹之内 高志 政策研究大学院大学, 政策研究科, 教授 (50403340)
松井 孝太 名古屋大学, 医学系研究科, 講師 (50737111)
川島 孝行 東京工業大学, 情報理工学院, 助教 (60846210)
武田 朗子 東京大学, 大学院情報理工学系研究科, 教授 (80361799)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
17,290千円 (直接経費: 13,300千円、間接経費: 3,990千円)
2023年度: 3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2022年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
2021年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
2020年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
2019年度: 6,500千円 (直接経費: 5,000千円、間接経費: 1,500千円)
|
キーワード | 機械学習 / 数理統計学 / 数理統計 / 機械学修 / 最適化 / 最適輸送 / 多ドメインデータ / 転移学習 / 情報転送 |
研究開始時の研究の概要 |
本研究では,さまざまな形式で表現された高次元・大規模な多ドメインデータを用いて統計的学習を行うためのフレームワークを構築することを目的とします.今日のようなビッグデータ時代では,さまざまなデータドメインにおいて,サイズ,次元,表現形式の異なる複雑なデータを収集することが出来ます.これは一見すると data-rich な状態と言えます.しかし,それぞれのドメイン間の相互関係が不明なことが多く,その意味ではデータ量が増えるほどknowledge-poor な状態になってしまいかねません.このようなビッグデータ時代のパラドックスを打破するための研究を推進します.
|
研究実績の概要 |
本研究では,データサイズ,次元,タイプなどが異なる多様なデータを用いて,予測や推論,構造推定など複数のタスクを行うための学習アルゴリズムを,数理な知見に基づいてい提案,開発することを目指している.理論的解析を行うことで,予測精度を向上させるためのハイパーパラメータの調整などが容易になり,さらなる性能向上につなげることが可能になる.多様な多ドメインデータを扱う上で重要なことは,ドメイン間の統計的な性質を適切に把握することである.応用例として,解像度の異なる画像データ,音声データ,タグ,その他の付加データからなるヘテロなデータを用いた関連性分析などの知見を取り入れ,検索や推薦システムの高精度化へとつなげていくことを目指して,研究をさらに推進している.とくに2022年度は,単ドメインにおけるデータを解析するため学習アルゴリズムを非一様な多ドメイン学習に展開するための統一的な方法論を確立する研究が進展した.まずドメイン間の違いをデータ分布の違いとして定式化し,ドメイン間の乖離度を適切に計測するための方法の開発と実装に取り組んだ.データの標本空間がドメイン間で共有されている場合であっても,高次元標本空間の場合には適切なドメインマッチングが必要である.共通する不変なデータ構造を推定し抽出することで,適切なデータ解析を行うことができる.ここで問題となるのは,「不変性」を実データに則して適切に定義し,その特定や抽出を効率的に行うことである.これまで培ってきた単ドメインにおける機械学習アルゴリズムを,不変構造を有する非一様な多ドメイン学習に適用するパラダイムに関する研究成果を論文としてまとめている段階である.この研究の方向性は,機械学習の適用範囲が飛躍的に拡大することを意味し,多ドメイン学習における研究としての意義が極めて大きいと考えられる.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
これまで,多ドメイン学習において不変性に着目した新しい学習パラダイムを確立することを目指し,研究を推進してきた.まず,ドメイン間の違いを確率分布の違いとして捉え,ドメイン間の乖離度を適切に計測するための理論的基礎を構築した.共同研究者らと議論を行い,データの標本空間がドメイン間で共有されている場合には,標準的な統計的手法を用いることが可能でことを解明した.例えば,高度に発展している統計的ダイバージェンスによる方法を考えると,生成モデルに対する深層ニューラルネットワークによる推定法のアイデアを用いて,さらに複雑なデータドメインを扱うための統計的方法を構築するなどの方向性について集中的に考察した.非漸近論による統計的推定精度の評価において,学習時とは異なる統一的な予測精度評価の尺度を用いることで,さまざまな異なる学習アルゴリズムの統計的信頼性を同一の基準で評価することが可能になった.これにより,敵対的学習のコンセプトに基づく統計手法に関する統計理論を整備し,どの方法が優れているか,適切に判断することが可能になった.また,単ドメイン上での非正則な確率分布の推定について研究を進めた.通常のノンパラメトリック推定ではデータ領域の境界上で深刻なバイアスが生じ,たとえば地理的に打ち切られたデータでは適切な分布推定を行うことが難しい状況であった.共同研究者らと議論を重ね,熱伝導方程式との類似から発展しているノンパラメトリック確率密度推定の方法をより発展させることに成功している.また多ドメイン学習において重要な表現学習の研究においても,我々のグループで大きな進展があった.近年,chatGPTなどで話題になっている生成AIの学習において重要な表現学習の方法である自己教師付き学習において,表現学習と下流タスクの関連に関する定量的な成果が得られた.
|
今後の研究の推進方策 |
今後の研究の推進方策としては,非一様な多ドメイン学習を数理的に解析し,制御可能な統計学習の方法論を確立することである.データの標本空間がドメイン間で共有されている場合であっても,高次元標本空間の場合には適切なドメインマッチングが必要である.共通する不変なデータ構造を推定し抽出することで,適切なデータ解析を行うことができる.ここで問題となるのは,「不変性」を実データに則して適切に定義し,その特定や抽出を効率的に行うことである.現在,適切な分布間距離に基づく不変構造の学習について研究を推進している.これまで培ってきた単ドメインにおける機械学習アルゴリズムを,不変構造を有する非一様な多ドメイン学習に適用するパラダイムについて,共同研究者らと議論している.さらに,現在集中的に検討している自己教師付き学習における表現学習と下流タスクとの関連についても理論的な性質を解明することを目指す.表現学習における「不変性」の重要性を自己教師つき学習の観点から明らかにするいことは極めて重要な課題である.多数のドメインの集合に共通する不変な表現と,個別のドメインにおいて重要な表現を下流タスクの予測精度の観点から切り分けることで,より現実の問題に適合する多ドメイン学習のフレームワークを提供することが可能になると考えている.さらに最終年度として,これまでの研究成果を実装し,広く応用に展開することは非常に重要である.すでに個別の研究テーマにおいて以下の研究成果が蓄積されている.i) 単ドメインにおいて進展したロバスト学習の方法と敵対的学習との関連に関する研究,ii) 多様なデータ環境におけるドメイン間の不変な特徴量学習に関する研究,iii) 自己教師つき学習における下流タスクと表現学習の定量的理解に関する研究.これらについて,さらなる理論的深化,実装,統合,応用展開を目指す.
|