研究課題/領域番号 |
23K24876
|
補助金の研究課題番号 |
22H03620 (2022-2023)
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 (2024) 補助金 (2022-2023) |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 国立情報学研究所 |
研究代表者 |
佐藤 真一 国立情報学研究所, コンテンツ科学研究系, 教授 (90249938)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
17,420千円 (直接経費: 13,400千円、間接経費: 4,020千円)
2024年度: 5,590千円 (直接経費: 4,300千円、間接経費: 1,290千円)
2023年度: 5,590千円 (直接経費: 4,300千円、間接経費: 1,290千円)
2022年度: 6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円)
|
キーワード | 学習データ / 学習アルゴリズム / 計量空間 / 転移学習 / 機械学習 / データセット / 学習アルゴリズム評価 / 学習データ評価 |
研究開始時の研究の概要 |
本研究では、データセット間の距離比較ができるデータセット計量ベクトル空間、学習アルゴリズム間の距離比較ができる学習アルゴリズム計量ベクトル空間、さらにはこれらを統合してデータセットと学習アルゴリズムとの間の距離比較ができる計量ベクトル空間の実現を目指す。これにより、相互に似た性質を持つデータセットや学習アルゴリズムの把握、多くのデータセットや学習アルゴリズムの主たる特徴にはどのようなものがあるのかの観測、新たなタスクに最も適した学習アルゴリズムの選択、転移学習のための事前学習モデルのために最も適した既存データセットの選択などが可能となる。
|
研究実績の概要 |
深層学習等機械学習に基づく手法は、タスクを規定するデータセットに基づき、学習アルゴリズムにより処理器を生成し、その性能評価はデータセットにより行う。データセットに応じた学習アルゴリズムの検討、学習アルゴリズムの解析・評価に適したデータセットの選択等は本質的に重要である。本研究では、こうしたデータセットや学習アルゴリズムをより深く解析するための、データセット並びに学習アルゴリズムの計量に関する研究を行う。データセット間の距離比較ができるデータセット計量ベクトル空間、学習アルゴリズム間の距離比較ができる学習アルゴリズム計量ベクトル空間、さらにはこれらを統合してデータセットと学習アルゴリズムとの間の距離比較ができる計量ベクトル空間の実現を目指す。これにより、相互に似た性質を持つデータセットや学習アルゴリズムの把握、多くのデータセットや学習アルゴリズムの主たる特徴にはどのようなものがあるのかの観測、新たなタスクに最も適した学習アルゴリズムの選択、転移学習のための事前学習モデルのために最も適した既存データセットの選択などが可能となる。 2023年度は主として、データセットのうちタスクを遜色なく学習できるような重要なデータのみを選択する、コアセット選択手法について集中的に検討を行った。特に、データセットの分布をより適切に表現できる計量手法について提案し、より性能の良いコアセット選択を実現した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
データセットの分布を評価する新たな計量手法を考案し、効果的な子アセット選択手法を提案できており、順調に進捗している。
|
今後の研究の推進方策 |
タスクとしてこれまで主として識別問題を想定してきたが、実は検索問題(ランキング問題)として考えると、広くコミュニティで検討されてきている手法がうまく機能しない場合があることを発見した。2024年度は最終年度であり、これまでの成果をまとめると同時に、検索問題についての展開を検討したい。
|