研究課題/領域番号 |
26280009
|
研究機関 | 統計数理研究所 |
研究代表者 |
福水 健次 統計数理研究所, 大学共同利用機関等の部局等, 教授 (60311362)
|
研究分担者 |
鈴木 大慈 東京工業大学, 情報理工学(系)研究科, 准教授 (60551372)
小林 景 統計数理研究所, 数理推論研究系, 助教 (90465922)
|
研究期間 (年度) |
2014-04-01 – 2019-03-31
|
キーワード | 統計的学習理論 / 高次元データ / 機械学習 |
研究実績の概要 |
本年度は、(1)内在的構造を持つ高次元データの数理、(2)高次元データに対するカーネル法の理論と方法、に関して以下のような研究成果が得られた。
(1)高次元データに典型的に表れるハブ構造(多くのデータの最近点として表れるデータ点)を持つ高次元データに関して研究を行った。ハブ現象は大規模データベース検索などに悪影響を及ぼすことが知られており、その解消法が重量な技術となる。通常はコサイン類似度の場合にハブ現象を議論することが多いが、本研究ではユークリッド距離を用いた場合のハブ現象の理論解析と、ハブ解消法の提案を行った。データベース検索のタスクにン用いたところ、提案手法は今までのハブ解消法よりも優れた結果を示すことが分かった。この研究の成果は、人工知能分野のトップ国際会議AAAI2016に採択された。また、ツリー上に分布するデータの解析に対する基礎的研究として、距離関数が木のグラフから与えられるための条件について調べ、成果を国際論文誌に投稿し採択された。
(2)2つの異なるドメインのデータにクラスタ構造があることを仮定して、カーネル法を用いて、これらのクラスタをマッチングさせる方法を研究した。特に、データ間の類似度などを全く与えられていない教師なしの状況をターゲットとした。研究の結果、カーネル平均とカーネル化ソーティングを組み合わせたグループ・カーネル化ソーティング法を提案した。これをWikipediaの対応する項目グループの多言語間でのマッチングに適用したところ、既存の方法よりも良好な結果が得られることが分かった。この成果は、国際雑誌 Data Mining and Knowledge Discoveryに掲載が決定している。 また、カーネル法による無限次元指数分布族の理論に関して理論解析を行い、収束レートの下限に関して考察を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
実績欄で述べたように、課題(1)(2)に対して研究成果が出ており、トップクラスの国際会議や論文誌に採択されている。一方、高次元データに関するカーネル法の理論や、効率的アルゴリズムに関しては検討を進めている段階のものもある。この状況を総合して、研究はおおむね順調に進んでいると判断する。
|
今後の研究の推進方策 |
以下の2点に注力する予定である。 ・カーネル指数分布族の収束性の理論解析。特に収束レートの下限に関して、共同研究者である Bharath Sriperumbudur (Pennsylvania State University)との議論を密に行い、誤差の評価方法も含めて検討を行っていく。 ・効率的アルゴリズム: スパース正則化の高速アルゴリズムの適用を検討する。
|
次年度使用額が生じた理由 |
カーネル法による無限次元指数分布族に関する共同研究を2016年3月に行うために、Pennsylvania State University の Bharath Sriperumbudur 氏を招へいするために予算を確保していたが、先方の都合により日程を設定することが困難となった。そのため、翌年度に招へいを延期することにした。
|
次年度使用額の使用計画 |
2016年度の10月ごろに Bharath Sriperumbudur 氏を招へいする予算として使用する計画である。
|