2020 Fiscal Year Research-status Report
ノイズを含む超球面データのためのクラスタリング方法論の確立
Project/Area Number |
19K12126
|
Research Institution | Shibaura Institute of Technology |
Principal Investigator |
神澤 雄智 芝浦工業大学, 工学部, 教授 (00298176)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | クラスタリング |
Outline of Annual Research Achievements |
本研究課題では、これまでに研究を推し進めてきた超球面クラスタリングを実世界、実社会の現象や事象への適用を可能とするための次の研究課題として、超球面ノイズデータのためのクラスタリング方法論を確立することを目的にすると共に、確立した手法を現実の識別システムや推薦システムに応用して実用に供することを目指す。 その研究方法として、研究代表者が開発してきた超球面データクラスタリング手法をノイズが多く含まれる場合にも適用できるようにして実用に供する、という目的に照らして、リニアノイズデータクラスタリング手法の中で超球面ノイズデータクラスタリングに適用できる手法の球面データにおける数理的特性、および、ノイズの種類 / 量 / 複雑さに対する効果の定量的評価を明らかにする。また、超球面データの特性を活かした独自の、超球面ノイズデータクラスタリング方法論を確立すると共に、その数理的特性、および、ノイズの種類 / 量 / 複雑さに対する効果の定量的評価を明らかにする。さらに、確立した方法論を応用した推薦システムや識別システムの、現実のソーシャルデータに対する効果の定量的評価を明らかにする。 本年度はまず,ベースラインとなる,ノイズを考慮しない手法を推薦システムに応用して実問題に対する精度評価をの実応用の成果を学術雑誌に出版できた.これを踏まえて,本研究で開発してきた手法を同じ実問題に適用することによってどの程度精度が上がるのかを定量的に評価できる準備を整えることができた.また,球面でないリニアデータに対してクラスタが偏在する部分空間を抽出する手法の数理特性を評価できた点.この知見を活かして,クラスタが偏在する部分空間を抽出する手法の特性を評価するための指針を得ることができた.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究の本年度計画では,ノイズを吸収するクラスタを仮定する手法の実データに対する性能評価,裾野の重い確率密度分布を用いる手法の実データに対する性能評価,クラスタが偏在する部分超球面を抽出する手法の数理解析、人工データに対する性能評価,カーネルデータ解析と共クラスタリングを用いる手法の数理解析、人工データに対する性能評価を実施する予定でいた. 本研究を進める上で,ベースラインとなる,ノイズを考慮しない手法の実応用の成果を論文出版できたり,球面でないリニアデータに対してクラスタが偏在する部分空間を抽出する手法の数理特性を評価できた点では研究が進展していると評価できる. その一方で,当初に計画していた,ノイズを吸収するクラスタを仮定する手法と裾野の重い確率密度分布を用いる手法の実データに対する性能評価を行えておらず,カーネルデータ解析と共クラスタリングを用いる手法について手をつけられていない点を含めると,遅れていると言わざるを得ない. 裾野の重い確率密度分布を用いる手法については,要素分布の自由度を表すパラメータ推定のための超幾何関数に関する零点を数値的に得るのが難しいために,当該確率密度分布を複数のパラメータで近似したのだが,導入したパラメータ数が多いために実データに適用するには計算量を現実的な範囲に収められなくなったためである.
|
Strategy for Future Research Activity |
本研究の本年度計画では,ノイズを吸収するクラスタを仮定する手法の実データに対する性能評価,裾野の重い確率密度分布を用いる手法の実データに対する性能評価,クラスタが偏在する部分超球面を抽出する手法の数理解析、人工データに対する性能評価,カーネルデータ解析と共クラスタリングを用いる手法の数理解析、人工データに対する性能評価を実施する予定でいた.この中で遅れている,ノイズを吸収するクラスタを仮定する手法と裾野の重い確率密度分布を用いる手法の実データに対する性能評価を行えておらず,カーネルデータ解析と共クラスタリングを用いる手法の開発を引き続き推し進めていく. 特に,裾野の重い確率密度分布を用いる手法については,要素分布の自由度を表すパラメータ推定のための超幾何関数に関する零点を数値的に得るのが難しいために,当該確率密度分布を近似するために導入したパラメータの数と近似精度との関係を明らかにしたうえで,実データに適用するための最適なパラメータ数を見出す.また,本研究を実問題に適用してきた中で,データにゆらぎが生じていたり,時変データに遭遇することが数多くあったため,これらにも適応する手法を合わせて開発していく.
|
Causes of Carryover |
コロナ禍の影響で,予定していた国際会議が延期になったために国外出張費および参加費の支出がなかったり,予定していた国内学会がオンライン開催になったために出張費支出がなかったり参加費支出が低く抑えられた. これらについては,まず,翌年度に延期になった国際会議の国外出張費や参加費にあてる.また,オンライン開催で参加費が低く抑えられる新たな学会での研究発表にあてる.さらに,実データ実験を実行するための高性能計算機を購入するか,クラウドコンピューティングサービスを利用することを検討する.
|