研究課題/領域番号 |
19K12125
|
研究機関 | 学習院大学 |
研究代表者 |
久保山 哲二 学習院大学, 計算機センター, 教授 (80302660)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | クラスタリング / 二部グラフ / ネットワーク分析 |
研究実績の概要 |
本研究では2種カテゴリ間の2項関係を大規模なデータを対象に分析するためのアルゴリズム開発を大規模2部クラスタリングとして捉え、既存のアルゴリズムの性質とデータへの適性を明らかにし、対象データの性質に適した規模耐性のある高速なアルゴリズムを開発することを目的としている。 昨年度の調査・実装に引き続き大規模データに対する図からのクラスタ抽出のアプローチ、および地からのクラスタ抽出のアプローチに基づく様々なアルゴリズムの性質を確認するために実装および実データによる実験を行った。さらに、本年度は高速化のために一般のネットワークで用いられている k-core のようなグリーディーアルゴリズムを二部クラスタリングに適用するため peeling に基づくアルゴリズムの調査・実装を行った。 昨年度の調査で構造の地からのクラスタ抽出のアプローチの1つである近似的な2部グラフの交差最小化を利用したアルゴリズムは、近似手法であるメジアン法および重心法が、そのままでは局所解に陥りやすく初期値に大きな影響をうけることがわかった。そのため、アルゴリズムの収束過程を用いた新しいアルゴリズムを開発し、現在、収束性等の理論的な性質を解析するとともに、大規模データによって性質を検証しているところである。 また、交差最小化におけるメジアン法のように2つのパラメーター群を相互に更新するアルゴリズムを、教師なし特徴選択手法にも適用し、インスタンス・特徴値行列を相互に転置しながら特徴選択をすることにより、インスタンスと特徴値の両者の選択を同時に行うアルゴリズムを開発した。このアルゴリズムをツイートデータから取得した約2万4千インスタンス×5万特徴のデータ行列に適用し、高速にクラスタリングが可能であることを検証した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
初年度に既存アルゴリズムの調査・実装、および実データへの応用を行い、各々の手法の性質についての理解を深め、現在、地からのアプローチの1つである交差最小化に基づく新たなアルゴリズムの開発に着手している。このアルゴリズムについては、理論的には収束性の保証についての証明が依然として未解決であるものの、予備実験による性能評価では速度およびクラスタの評価において良好な結果を得ている。
|
今後の研究の推進方策 |
地からのアプローチの1つである交差最小化を用いた2部クラスタリングアルゴリズムをさらに改良する予定である。実験的には収束性に問題はないものの、理論的な保証を得ることが今後の課題である。また、グリーディーアルゴリズムにより効率的かつ階層的に二部グラフのクラスタ構造を推定できるPeelingアルゴリズムについても、今後、新たな手法の開発をすすめていく予定である。
|
次年度使用額が生じた理由 |
新型コロナウイルス感染症による影響で、国内出張6件および国際会議出席のための海外出張2件が中止になったため。
|