研究課題/領域番号 |
19H04071
|
研究機関 | 東京工業大学 |
研究代表者 |
金森 敬文 東京工業大学, 情報理工学院, 教授 (60334546)
|
研究分担者 |
熊谷 亘 国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (20747167)
竹之内 高志 公立はこだて未来大学, システム情報科学部, 准教授 (50403340)
松井 孝太 名古屋大学, 医学系研究科, 講師 (50737111)
川島 孝行 東京工業大学, 情報理工学院, 助教 (60846210)
武田 朗子 東京大学, 大学院情報理工学系研究科, 教授 (80361799)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
キーワード | 機械学習 / 数理統計学 |
研究実績の概要 |
本年度は,まず単ドメインデータの解析のため学習アルゴリズムについて研究を進めた.とくに,高次元データに内在する複雑な低次元特徴を捉えるための方法である密度稜線の推定,回帰関数のロバストな構造推定など,複雑なデータ構造をロバストに学習するための統計手法について研究を行った.また学習アルゴリズムの計算効率を向上させるため,非規格化モデルを用いる学習についても研究を進めた.例えば,地図上で適当に区切られた区画ごとにデータの分布が得られているとき,その確率分布を推定することは計算上の困難が伴う.データ領域が複雑な形状をもつデータに対して計算効率が高い学習アルゴリズムを開発することを目指し,共同研究者らとさまざまなアイデアについて議論した.関連する研究として,多ドメインデータを解析するための統計手法の理論基盤を確立するための研究を推進した.重要な概念として,ドメイン間乖離度がある.これは 主に転移学習の文脈で提唱されている概念であり,多ドメインにおけるデータ転送の効果を計測する量である.ドメイン間乖離度が大きいとデータ転送の効果は一般に小さくなり,場合によっては負の情報転送が生じる.既存のアプローチでは最悪評価によるドメイン間乖離度が用いられることが多い.しかし,統計精度の面で実用的とは言い難く,大いに改善の余地があると考えられている.現在,我々の研究グループでは最適輸送の理論に基づき,多ドメインデータを用いる学習とドメイン間乖離度との関連について考察を進めている.とくにドメイン間で不変な特徴量を抽出し,その情報を各ドメインで共有することで予測の精度が向上することを,横断的な数値実験により確認しつつある.このアイデアを追求し,実用的な学習アルゴリズムとして発展させると共に,理論的な解析とその知見を用いた更なる改良などについて,議論を深めている.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究では,データサイズ,次元,タイプなどが異なる多様なデータ構造の下で,予測や推論,構造推定など複数のタスクを行うための学習アルゴリズムを開発することを目指している.とくに注力しているのは,数理的な性質を解明し,その成果を学習アルゴリズムの設計に応用する点である.理論的にしっかりとした解析を行うことで,予測精度を向上させるためのハイパーパラメータの調整が容易になるなど,さらなる性能向上につなげることができる.多様な多ドメインデータを扱う上で重要なことは,ドメイン間の統計的な性質を適切に把握することである.「負の情報転送」のように,予測精度に対してデータ統合がネガティブに作用してしまうことがある.負の情報転送が生じないように,多様なデータを適切に統合するための方法を開発することが重要である.応用例として,解像度の異なる画像データ,音声データ,タグ付きデータ,その他の付加データからなるヘテロなデータを用いた関連性分析などの知見を取り入れ,検索や推薦システムの高精度化へとつなげていくことを目指している.本研究課題では,これまで単ソース・単ターゲットドメインの情報統合に関する重要な問題である辞書学習について,研究を推進した.さらに,近年の機械学習の発展を支えている深層学習についても研究を進め,とくに高次元の複雑なデータに対して深層ニューラルネットワークを用いたクラスタリング手法について研究を進めた.今年度は,まずは単ドメインにおけるロバスト学習についての知見を深めた.その他,多ドメイン学習では転移学習における不変な特徴量というアイデアを共同研究者らと議論した.不変な情報を各ドメインで共有することで,予測の精度が向上することを横断的な数値実験により確認しつつある.以上のことから,単ドメイン学習と多ドメイン学習の両面において,研究が順調に進んでいると判断することができる.
|
今後の研究の推進方策 |
これまでの研究では,主に単ドメイン学習に対する学習アルゴリズムの構築とその数理的な解析をしてきた.また多ドメインデータの学習においても,不変性に着目した新しい学習パラダイムの端緒となる研究を開始し,数値的にそのアイデアの有用性を確認している.今後は,単ドメインにおけるデータを解析するため学習アルゴリズムを,多ドメイン学習に展開するための統一的な方法論を確立することを目指して研究を推進する.まず,ドメイン間の違いをデータ分布の違いとして定式化し,ドメイン間の乖離度を適切に計測するための理論的基礎を構築する.データの標本空間がドメイン間で共有されている場合には,標準的な方法を用いることが可能である.例えば,高度に発展している統計的ダイバージェンスによる方法などがある.ダイバージェンスについては生成モデルに対する深層ニューラルネットワークによる推定法の進展があり,そのアイデアを用いてさらに複雑なデータドメインを扱うための統計的方法を構築するというアイデアを追求する.一方で,標本空間がドメイン間で共有されていない場合には,数理統計学や機械学習の観点から標準的なアプローチがいまだに確立されていない.近年の転移学習などでも,非一様なデータドメインに対する適切な学習法の構築は急務である.標本空間が異なる確率分布間の距離構造を適切に定める問題に対して,統計学的な定式化と実用的な学習アルゴリズムの開発を進める.この方向での研究成果が得られれば,これまで培ってきた単ドメインにおける機械学習アルゴリズムを非一様な多ドメイン学習に展開することが可能になり,多ドメイン学習における研究としての意義が極めて大きいと考えられる.このような多様なデータ環境において,ドメイン間の「特徴量不変性」は重要な概念と我々の研究グループは考えており,そのアイデアに基づいて新しい学習パラダイムを構築することを目指す.
|