2019 Fiscal Year Research-status Report
ノイズを含む超球面データのためのクラスタリング方法論の確立
Project/Area Number |
19K12126
|
Research Institution | Shibaura Institute of Technology |
Principal Investigator |
神澤 雄智 芝浦工業大学, 工学部, 教授 (00298176)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | クラスタリング / ノイズ / 球面データ |
Outline of Annual Research Achievements |
本研究課題では、これまでに研究を推し進めてきた超球面クラスタリングを実世界、実社会の現象や事象への適用を可能とするための次の研究課題として、超球面ノイズデータのためのクラスタリング方法論を確立することを目的にすると共に、確立した手法を現実の識別システムや推薦システムに応用して実用に供することを目指す。 その研究方法として、研究代表者が開発してきた超球面データクラスタリング手法をノイズが多く含まれる場合にも適用できるようにして実用に供する、という目的に照らして、リニアノイズデータクラスタリング手法の中で超球面ノイズデータクラスタリングに適用できる手法の球面データにおける数理的特性、および、ノイズの種類 / 量 / 複雑さに対する効果の定量的評価を明らかにする。また、超球面データの特性を活かした独自の、超球面ノイズデータクラスタリング方法論を確立すると共に、その数理的特性、および、ノイズの種類 / 量 / 複雑さに対する効果の定量的評価を明らかにする。さらに、確立した方法論を応用した推薦システムや識別システムの、現実のソーシャルデータに対する効果の定量的評価を明らかにする。 本研究が対象とするクラスタリング技術は、メール群から迷惑メールを検出するなどの識別システムや、消費者に有用な商品広告を提示するなどの推薦システムを解くための本質的要素技術である。これら現実のソーシャルデータでは膨大なノイズデータが溢れているため、本研究成果による、ノイズに塗れていても精度が悪化しないクラスタリング方法論を応用した高精度な識別システムや推薦システムは、社会への波及効果が大きい。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
ノイズ個体を吸収するクラスタを仮定する手法についてアルゴリズムを開発し,その数理的特性を明らかにした.さらに、その数理的特性を実験的に確認した。具体的には、人工的に生成した超球面データにノイズ個体を加えることによって得られる超球面ノイズデータに対して開発手法を適用し、それぞれノイズ個体数、外れ値の位置とバラつき、データの次元と、クラスタリング精度との関係を明らかにした。これによって開発手法のノイズに対する精度性能および感度性能が理論・実験の両面から明らかになった。リニアノイズデータに対する手法に、裾の重い確率密度分布の混合分布をモデルとするものがあることを踏まえて、リニアデータに対する幾つかの裾の重い分布に対応する、超球面上の裾の重い分布の混合分布モデルを用いたアルゴリズムを開発した。その際、正規化定数を解析的に得ることが難しいので、近似算法やサンプリング技法を活用した。また、開発手法の数理的特性を明らかにすると共に人工データを用いて数理的特性を実験的に確認した。 リニアノイズデータに対してはクラスタが偏在する部分空間を抽出しながらクラスタリングする部分空間クラスタリング技法が確立されているが、超球面ノイズデータに対してそのまま適用することができない。そこで、部分空間の代わりに部分超球面を抽出しながらクラスタリングをする手法を開発する。また、本手法と上記の研究手法を組み合わせたアルゴリズムを開発した。
|
Strategy for Future Research Activity |
カーネルデータ解析と共クラスタリングに基づく手法のアルゴリズムを開発していく.本手法は他の正統的方法とは異なり、研究代表者の研究成果から産まれた独自性が高いものである。 Gaussian カーネルなどから得られる特徴空間上の点は、データ数を次元とする空間上の球面上に附置され、空間の各軸が各個体に対応する。一方、研究代表者が開発してきた共クラスタリング手法は個体だけでなく特徴をもクラスタリングし、特徴集約による次元削減をもたらす。この機構をカーネルデータに施すことはクラスタ化を阻害する個体を無視することになる。結果として、ノイズ個体を排除しながらクラスタリングできる。2020年度はこのアイデアに基づいてアルゴリズムを開発する。ノイズ個体を吸収するクラスタを仮定する手法および裾の重い確率密度分布に基づく手法については実データに対する性能評価を行っていく.2019年度に行った開発手法群に関する知見を基にして、ベンチマークテストとして文書データや画像データを用いて、リニア手法群と開発手法群との精度比較を行う。ノイズ個体を吸収するクラスタを仮定する手法については、文書データ群に無意味な仮想文書を加えていったり、画像データ群に白色ノイズ画像を加えていき、その度合いと精度の関係を比較評価する。超球面上の重裾確率密度分布に基づく手法については、文書データ群に全く異なるトピックの文書を加えていったり、画像データ群に全く異なるカテゴリの画像を加えていき、その度合いと精度の関係を比較評価する。
|
Causes of Carryover |
予定していた国際会議への投稿1件を日程の都合が合わないために見合わせたこと,また,数値実験に使用するための計算機購入にあたっての仕様策定の結果,2019年度は現行資産で賄えると判断したこと,これによって生じた差額を2020年度以降に,より多くの成果発表と,効果的な数値実験実施に向けた計算機購入予算とする.
|
Research Products
(1 results)