2021 Fiscal Year Research-status Report
Figure and ground approaches for scalable biclustering and their applications
Project/Area Number |
19K12125
|
Research Institution | Gakushuin University |
Principal Investigator |
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | クラスタリング / 二部グラフ |
Outline of Annual Research Achievements |
本研究では2種カテゴリ間の2項関係を大規模なデータを対象に分析するためのアルゴリズム開発を大規模2部クラスタリングとして捉え、既存のアルゴリズムの性質とデータへの適性を明らかにし、対象データの性質に適した規模耐性のある高速なアルゴリズムを開発することを目的としている。 昨年度までに行った調査・実装を、さらに大規模な二部グラフデータに適用して、その性質について調査した。具体的には、TwitterのユーザIDと単語からなる二部グラフ、および、入札データの入札者と入札事業からなる二部グラフ、マイクロアレイデータによる二部グラフを対象に二部クラスタリングアルゴリズムを適用し、対象データの性質に応じたアルゴリズム選択が可能になるようなクラスタリング手法の分類と意味付けを整理した。 この結果に基づいて、昨年度に引き続き、交差最小化におけるメジアン法のように2つのパラメーター群を相互に更新するアルゴリズムを教師なし特徴選択手法にも適用した。インスタンス・特徴値行列を相互に転置しながら特徴選択をすることにより、インスタンスと特徴値の両者の選択を同時に行うアルゴリズムを数万インスタンス×数万特徴からなる大規模データに適用し、その有効性を検証した。また、本研究で開発した二部グラフの交差最小化の近似計算における目的関数の収束過程を特徴量として、その類似度を用いてクラスタリングするアルゴリズムの振る舞いについて検討した。その結果、クラスタの安定性にやや問題があることがわかったため、引き続き安定性を確保するための方法について検討ではあるが、実データに基づく実験により主要クラスタについては概ね安定した結果が得られることを示した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
Peeling型のグリーディーアルゴリズムに基づく二部クラスタリングについては、実データへの適用に際して適切なパラメタの調整にさらなる検討が必要であり、当初の計画からはやや遅れており、この点については引き続き実データによる検証とパラメタ探索の方法を検討している。一方で、二部グラフの交差最小化の近似計算に基づく目的関数の収束過程の類似度をもちいた二部クラスタリングアルゴリズムについては、数十万×数十万ノードの二部グラフに大規模計算への適用も可能となっており、大規模二部クラスタリングアルゴリズムの開発という視点からは、おおむね計画に沿って進められている。
|
Strategy for Future Research Activity |
現在、メジアン法の収束過程の類似度に基づくアルゴリズムを中心に、開発と検証をすすめている一方で、Peeling型の新しいグリーディーアルゴリズムの開発はやや難航している。Peeling型のアルゴリズムは階層的なクラスタを取得できる実用的な利点があるため、実データを用いてパラメタ調整の手法を検討し、今後、さらに大規模計算に適用できるような実用的なアルゴリズム開発を進める予定である。
|
Causes of Carryover |
論文が受理されて出席予定であった2つの国際会議が、オンライン開催となったこと、および、月に2回程度予定していた共同研究者との国内出張が取りやめとなったことなどが主要な原因となって差額が生じたため計画どおり使用できなかった。 今年度は、大規模な二部クラスタリング実験のための環境整備と検証のためのコンピューター実験に前年度分の未使用額を充てる予定である。
|