2019 Fiscal Year Annual Research Report
高次元・大規模・多ドメインデータの特徴抽出と情報統合による統計的学習
Project/Area Number |
19H04071
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
金森 敬文 東京工業大学, 情報理工学院, 教授 (60334546)
|
Co-Investigator(Kenkyū-buntansha) |
熊谷 亘 国立研究開発法人理化学研究所, 革新知能統合研究センター, 研究員 (20747167)
竹之内 高志 公立はこだて未来大学, システム情報科学部, 准教授 (50403340)
松井 孝太 国立研究開発法人理化学研究所, 革新知能統合研究センター, 特別研究員 (50737111)
武田 朗子 東京大学, 大学院情報理工学系研究科, 教授 (80361799)
川島 孝行 東京工業大学, 情報理工学院, 助教 (60846210)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Keywords | 機械学習 / 数理統計学 / 最適化 / 最適輸送 |
Outline of Annual Research Achievements |
本研究では,多数のソースドメインから収集されたデータを用いて,ターゲットドメインのタスクを高速・高精度に実行する統計的学習アルゴリズムを構築することです.さらに,その数理的基礎を築くことが主要な目標になります.多数のソースドメインとしては,解像度の異なる画像,音声,タグなどさまざまなものが考えられます.本研究の初年度では,まずは単一データドメインにおける学習アルゴリズムの深化,発展に注力しました. 一方,多ドメインの学習ではソースドメインのデータをターゲットドメインへと転送するためには,ドメイン間の類似度を適切に評価する必要があります.類似度についての知見を深めるため,推薦システムなど類似度が重要な役割を果たす問題設定において,データの類似度と統計モデルとの関連について研究を進めました.この研究により,類似度に対応して混合分布モデルが存在し,その混合分布モデルに対する学習アルゴリズムを用いることで,データ間類似度を適切に計測することができることを明らかにしました. さらに,2ドメイン間の学習として辞書学習について考察しました.辞書学習の問題設定では,ソースドメインはラベルなしデータが観測され,ターゲットドメインではラベルありデータが観測される状況を考えます.ソースドメインのデータからその特徴量を学習し,情報をターゲットドメインに転送します.このとき,情報転送を行わない場合と比較してターゲットドメインでのタスクの予測精度が低下してしまう「負の情報転移」とよばれる現象を,どのようにすれば防ぐことができるか考察しました.統計的学習理論にもとづき,ソース・ターゲット間での特徴量転移と予測精度の理論的な上界に関する関係式を導出することに成功しました.この結果をいくつかのデータセットに対して検証し,理論的発見と整合する数値結果を得ました.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
これまでの研究では,統計的推定や機械学習について研究を進めてきました.個別ドメインでデータの特徴を捉えるための研究として,密度稜線推定による多様体学習,変数選択,次元削減といった特徴選択法を開発し,数理的基盤について考察しました.また,個別ドメインにおける大規模統計モデルに対する効率的学習アルゴリズムの開発として,非正規化 統計モデルによる推定法の提案をおこなってきました. 本年度は,これらの成果をマルチドメイン学習へと発展させるための研究を推進しました.データドメイン間の類似を評価することが重要であるため,具体的な問題設定として推薦システムについて考察しました.推薦システムではデータ間類似度を適切に定義することが重要であり,この研究を通じて類似度についての知見を深めました.また単ソース・単ターゲットドメインの情報統合に関する重要な問題である辞書学習について,研究を推進しました.さらに,近年の機械学習の発展を支えている深層学習についても研究を進め,とくに高次元の複雑なデータに対して深層ニューラルネットワークを用いてクラスタリングを行う手法について研究を進めました.提案法では,クラスバランスが偏っている場合であっても,信頼性の高いクラスタリングを与えることが可能です.これらの方法は,半教師付き学習などの設定に拡張可能であり,複数のデータドメインにおける学習へと発展させることで,マルチドメイン学習のための重要な技術基盤になり得ると考えています. 初年度は単一ドメインでの学習を深化・発展させることを考えていましたが,さらに類似度の研究や辞書学習による2ドメイン間の学習などの発展もあり,研究が順調に進んでいると判断することができます.
|
Strategy for Future Research Activity |
これまでの研究では,主に単ドメイン学習に対する学習アルゴリズムの構築とその数理的解析を行ってきました.本研究の2年次では,多くのタスクドメインの間で適切に情報統合を行うための統計的学習法について,研究を推進することを計画しています.複雑で非一様な構造をもつデータドメインの情報統合について考察するため,「多ドメイン間での情報転送」と「タスクの統計的信頼性」の関係について研究を進めます.ここでは,初年度で研究を進めた類似度に関する研究成果を応用することを想定しています.加えて,ワッサースタイン幾何における最適輸送にもとづくドメイン間類似度についても,予備的に得られている成果をさらに発展させることを計画しています.多ドメイン学習では,さまざまな問題設定が考えられます.本年度では,ドメイン間類似度と,ターゲットドメインにおけるタスクの汎化性能を理論的に解析することからスタートします.この理論的成果にもとづき,ソースドメインから適切にターゲットドメインへ情報転送を行う学習アルゴリズムを構成します.いくつかの既存の研究では,ソースドメインの情報統合に単純な凸和などが用いられています.予備的な研究成果として,既存の方法よりタイトな汎化誤差バウンドを導出しています.この理論的な成果を用い,まざまな情報統合の方法について研究を深化させることが本年度の目標となります.さらに今後の展開として,複雑なデータドメイン間の関係を,例えばグラフのような数学的構造を用いて記述し,ドメイン間の情報転送を効率的に行うための方法論と数理的基盤を確立することを目指して研究を推進します.ヘテロなデータドメインを扱うための方法として,共通空間への写像を用いる方法が提案されていますが,ドメイン間の情報転送との融合を図り,多ドメイン学習の実用化へと発展させることを計画してます.
|