2019 Fiscal Year Research-status Report
Figure and ground approaches for scalable biclustering and their applications
Project/Area Number |
19K12125
|
Research Institution | Gakushuin University |
Principal Investigator |
久保山 哲二 学習院大学, 計算機センター, 教授 (80302660)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | クラスタリング / 二部グラフ |
Outline of Annual Research Achievements |
本研究では2種カテゴリ間の2項関係を分析するためのアルゴリズム開発を大規模2部クラスタリングとして捉え、既存のアルゴリズムの性質とデータへの適性を明らかにし、対象データの性質に適した規模耐性のある高速な アルゴリズムを開発することを目的としている。 初年度は、まず既存手法の調査を行った。図からのクラスタ抽出のアプローチとして、極大クリークの列挙アルゴリズムを用いた方法について、大規模実データへの実験をとおしてその性質を調査した。また、地からのクラスタ抽出のアプローチとして、最小カット問題の近似手法として2部グラフの交差最小化に基づくアルゴリズムに着目し、調査・実装を行った。 極大クリークの列挙アルゴリズムについては、実際に約800万ツイートと20万ユーザのデータに対して適用しクラスタリングを行い、得られたクラスタをトピックとして抽出した。2部グラフの交差最小化によるクラスタリングについては、局所解に陥りやすく初期値に大きな影響をうけることがわかった。さらに、行列分解による手法について、スパース動的モード解析と、非負値行列分解に着目し、実データに適用し、その性質を確認した。動的モード分解については、プラズマの時空間計測データを主要な空間パターンとその時系列発展に分解し、短時間フーリエ変換と比較して細粒度の時空間ぱたーんを抽出できることを示した。また、非負値行列分解については、大学の教室の電力消費の時系列データを、時間と教室の双方からクラスタリングし消費パターンを可視化した。 さらに、クラスタリングの基礎的な研究として、情報理論的尺度による教師なし特徴選択手法を通して、高速なクラスタリングを実現するアルゴリズムを開発した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度予定していた通り、様々なクラスタリング手法に対して、調査・実装、および実データへの応用を行い、各々の手法の性質についての理解を深めた。また、その結果、2部クラスタリングとして十分な性能がえられないアルゴリズムについても、来年度以降の改良方針の着想をえることができた。
|
Strategy for Future Research Activity |
初年度に調査したアルゴリズムの中で、交差最小化を用いた2部クラスタリングが、強く初期値に依存し、局所解に収束してしまう問題点について改良をすすめる。いくつかのデータ実験により、アルゴリズムの収束過程をもちいた新しいアルゴリズムを開発する見通しが得られている。また、当初調査対象として想定していなかった教師なし特徴選択によるアプローチについても、二部クラスタリングへ適用できる見通しであり、引き続きアルゴリズムの拡張をおこなう。
|
Causes of Carryover |
新型コロナウイルス感染症による影響で、国内出張6件が中止になったため。
|
Research Products
(10 results)