Figure and ground approaches for scalable biclustering and their applications
Project/Area Number |
19K12125
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Gakushuin University |
Principal Investigator |
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Project Status |
Granted (Fiscal Year 2021)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2020: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2019: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
|
Keywords | クラスタリング / 二部グラフ / ネットワーク分析 / 二部クラスタリング / 行列分解 / 交差最小化 |
Outline of Research at the Start |
本研究では、商品とその購入者などの2つのカテゴリから構成される対象間の関係を記録したデータから、商品グループとそれに対応する購入者層のようなまとまりを見つけ出す問題に取り組む(この問題を二部クラスタリングとよぶ)。このような2者間の関係を2部グラフと呼ばれる構造によって表現し、膨大なデータを対象に問題を効率よく解くための手法の開発に新たな視点で取り組むとともに、既存手法の数理的な解析と新たな応用を探る。
|
Outline of Annual Research Achievements |
本研究では2種カテゴリ間の2項関係を大規模なデータを対象に分析するためのアルゴリズム開発を大規模2部クラスタリングとして捉え、既存のアルゴリズムの性質とデータへの適性を明らかにし、対象データの性質に適した規模耐性のある高速なアルゴリズムを開発することを目的としている。 昨年度までに行った調査・実装を、さらに大規模な二部グラフデータに適用して、その性質について調査した。具体的には、TwitterのユーザIDと単語からなる二部グラフ、および、入札データの入札者と入札事業からなる二部グラフ、マイクロアレイデータによる二部グラフを対象に二部クラスタリングアルゴリズムを適用し、対象データの性質に応じたアルゴリズム選択が可能になるようなクラスタリング手法の分類と意味付けを整理した。 この結果に基づいて、昨年度に引き続き、交差最小化におけるメジアン法のように2つのパラメーター群を相互に更新するアルゴリズムを教師なし特徴選択手法にも適用した。インスタンス・特徴値行列を相互に転置しながら特徴選択をすることにより、インスタンスと特徴値の両者の選択を同時に行うアルゴリズムを数万インスタンス×数万特徴からなる大規模データに適用し、その有効性を検証した。また、本研究で開発した二部グラフの交差最小化の近似計算における目的関数の収束過程を特徴量として、その類似度を用いてクラスタリングするアルゴリズムの振る舞いについて検討した。その結果、クラスタの安定性にやや問題があることがわかったため、引き続き安定性を確保するための方法について検討ではあるが、実データに基づく実験により主要クラスタについては概ね安定した結果が得られることを示した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
Peeling型のグリーディーアルゴリズムに基づく二部クラスタリングについては、実データへの適用に際して適切なパラメタの調整にさらなる検討が必要であり、当初の計画からはやや遅れており、この点については引き続き実データによる検証とパラメタ探索の方法を検討している。一方で、二部グラフの交差最小化の近似計算に基づく目的関数の収束過程の類似度をもちいた二部クラスタリングアルゴリズムについては、数十万×数十万ノードの二部グラフに大規模計算への適用も可能となっており、大規模二部クラスタリングアルゴリズムの開発という視点からは、おおむね計画に沿って進められている。
|
Strategy for Future Research Activity |
現在、メジアン法の収束過程の類似度に基づくアルゴリズムを中心に、開発と検証をすすめている一方で、Peeling型の新しいグリーディーアルゴリズムの開発はやや難航している。Peeling型のアルゴリズムは階層的なクラスタを取得できる実用的な利点があるため、実データを用いてパラメタ調整の手法を検討し、今後、さらに大規模計算に適用できるような実用的なアルゴリズム開発を進める予定である。
|
Report
(3 results)
Research Products
(21 results)
-
-
-
-
-
-
-
-
-
-
-
-
-
[Journal Article] Twitter Topic Progress Visualization using Micro-clustering.2019
Author(s)
Hashimoto, T., Kusaba, A., Shepard, D., Kuboyama, T., Shin, K. and Uno, T.
-
Journal Title
Proc. of 9th International Conference on Pattern Recognition Applications and Methods
Volume: 1
Pages: 585-592
DOI
Related Report
Peer Reviewed / Int'l Joint Research
-
[Journal Article] A Fast Algorithm for Unsupervised Feature Value Selection.2019
Author(s)
Shin, K., Okumoto, K. Shepard, D., Kuboyama, T., Hashimoto, T., and Ohshima, H.
-
Journal Title
Proc. of 12th International Conference on Agents and Artificial Intelligence
Volume: 1
Pages: 203-213
DOI
Related Report
Peer Reviewed / Open Access / Int'l Joint Research
-
-
-
-
-
-
-