研究課題/領域番号 |
23K19986
|
研究種目 |
研究活動スタート支援
|
配分区分 | 基金 |
審査区分 |
1001:情報科学、情報工学およびその関連分野
|
研究機関 | 株式会社サイバーエージェント(AI事業本部 AI Lab) |
研究代表者 |
蟻生 開人 株式会社サイバーエージェント(AI事業本部 AI Lab), AItech Studio AI Lab, リサーチサイエンティスト (80984286)
|
研究期間 (年度) |
2023-08-31 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
2,860千円 (直接経費: 2,200千円、間接経費: 660千円)
2024年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | 多腕バンディット問題 / 逐次的意思決定 / オンライン学習 / クラスタリング |
研究開始時の研究の概要 |
本研究では、データ収集と学習を同時進行させる逐次的な大規模意思決定問題への新たなアプローチを提案することを目指す。特に、特徴量の次元数や行動空間が大きい状況でも、サンプル数を最小限に抑えつつ、効果的な意思決定が可能となる手法の開発に取り組む。そのために、問題の構造に注目し、各問題の構造固有の複雑さに対応するように性能がスケールする手法を構築する。これにより、広告配信や推薦システム等の大規模問題に対する逐次的意思決定手法の適用範囲が拡大し、それらの分野での意思決定の質が向上することが期待される。
|
研究実績の概要 |
本年度の研究成果は以下のようにまとめられます。 まず、Stochastic Block Modelのクラスタリング問題を発展させ、アイテム間の分類難易度に異質性がある状況下でのラベル付け問題をクラウドソーシング問題と結びつけつつ提唱しました。この問題に対して、情報理論的なラベル付けの精度限界を、適応的および非適応的なアルゴリズムの両方に対して示しました。さらに、新たなアルゴリズムを開発し、その性能を数学的に証明しました。このアルゴリズムは、情報理論的なラベル付けの精度限界に近い性能を持つことを示し、実験的にもその有効性を確認しました。これらの成果は、Machine Learningという分野のトップジャーナルで採択されました。 次に、最も基本的な逐次的意思決定問題の一つである固定予算二腕最適腕識別問題を検討しました。この問題に対して、バンディット問題群に対して一様に最適な戦略を探求しました。その結果、そのような一様に最適となる戦略は必ず「安定性」及び「一貫性」といった性質を持つことを明らかにしました。結論として、各選択肢を均等に試す、一様抽出を上回る戦略は存在しないことを示しました。この成果は国内学会および国際学会にて発表されました。 さらに、複数の意思決定者が存在する状況における大規模逐次的意思決定問題、特に記憶容量の非対称性を考慮したマルチエージェント学習ダイナミクスについて研究しました。この問題に対して、ダイナミクスの局所的な均衡への収束性を理論的に、大域的な収束性を実験的に示しました。これらの研究は、人工知能分野の世界トップカンファレンスであるAAAIで採択されました。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
本年度は約半年という短期間にもかかわらず、分野トップの国際雑誌論文に2件の論文を掲載し、国際学会(ワークショップ)に1件、国内学会に4件の成果を発表することができました。これらの成果は当初の研究計画に基づいたものでありながら、研究の過程で新たに発見したテーマについても取り組み、その成果を研究実績としてまとめあげることができました。このような進捗状況を基に、評価を行っています。
|
今後の研究の推進方策 |
今後の研究方針として以下の計画を立てています。 まず、ブロック構造を活用した逐次的意思決定手法の研究を進める予定です。特に、ラベル付きStochastic Block Modelのクラスタリング問題に焦点を当てます。この問題に対して、適応的に最適となるアルゴリズムの開発を目指します。次に、固定予算最適腕識別問題について考察します。ここでは、二腕の場合に得られた知見を三腕以上の問題に拡張することを目指します。特に、戦略が引き起こす非連続的な割当量のために、二腕問題で得られている安定性の概念を直接適用することは難しいという課題があります。そのため、この概念を三腕以上の問題に適用可能とするための修正点を探求します。さらに、逐次的意思決定手法を自然言語処理に応用する可能性についても探求します。意思決定空間が比較的膨大な自然言語処理の問題に対して、逐次的意思決定手法、特に最適腕識別手法がどれほど効果的であるかを検証します。最後に、複数の意思決定者が存在する状況における大規模逐次的意思決定問題の研究も継続します。観測ノイズの影響を考慮しつつ、ノイズ環境下でも均衡に収束する手法を開発します。さらに、その収束性能の保証範囲を拡大することも目指しています。
|