2023 Fiscal Year Research-status Report
Figure and ground approaches for scalable biclustering and their applications
Project/Area Number |
19K12125
|
Research Institution | Gakushuin University |
Principal Investigator |
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
|
Project Period (FY) |
2019-04-01 – 2025-03-31
|
Keywords | 二部グラフ / クラスタリング / コミュニティ抽出 / 数え上げ |
Outline of Annual Research Achievements |
本研究では申請書に示した目的に従い、大規模二部グラフデータから効率的にコミュニティを抽出する手法の開発に取り組んだ。グラフのハッシュ化によるスケッチ表現を用いた高速なフィルタリング手法の検討を進め、ある程度の成果を得ることができた。具体的には、スケッチ表現同士の非対称距離を活用することで、検索の再現率を高められることに着目し、複数のハミング距離ベースのスケッチ列挙を組み合わせる新たな手法を提案した。これにより、非対称距離を近似的に表現しつつ、並列処理による高速化を実現できることを示した。 また、本研究の一環として、バタフライ構造の数え上げ及びウイング分解に基づく階層的二部クラスタリングについて検討を行った。まず、大規模な二部グラフデータを対象に本手法を適用し、その性質を調査したところ、ハブ構造がクラスタリングを妨げる要因となることが判明した。そこで、前処理としてハブ構造の除去を組み込み、密度の高い部分構造が得られるよう手法の改良を行った。構造的には性質の良いクラスタを高速に抽出できる見通しが得られた。本研究の成果は、大規模なグラフ構造データの分析を加速する上で意義を持つと考えられる。提案手法によりコミュニティ抽出の計算効率が改善されれば、ソーシャルメディアなどの膨大なユーザ間の関係性を手軽に分析できるようになり、様々な応用が期待できる。引き続き、高速かつ実用的なグラフマイニング技術の確立を目指して研究を進める。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究課題については、実データを用いた実証に至る過程で、当初の計画から若干の遅れが生じているものの、概ね順調に進捗していると評価している。現時点での達成状況を鑑み、研究期間延長を行い、研究目的の完遂を図る予定である。 二部グラフのスケッチ表現を用いた高速フィルタリング手法の開発を行い、非対称距離の活用により検索性能を向上させる新たな手法を考案し、並列処理との組み合わせによる更なる高速化の可能性を示した。大規模データセットを用いた実験により、提案手法の有効性を確認した。また、階層的二部クラスタリングについても検討を進め、大規模二部グラフデータへの適用を通じて、手法の改良点を明らかにした。前処理としてハブ構造除去を組み込むことで、アルゴリズムの性能向上を図った。匿名化データによる予備実験では、良質なクラスタの高速抽出に向けて期待できる結果が得られている。残る研究期間では、提案手法の実データへの応用と分析を中心に進める計画である。実運用に向けた課題の洗い出しと解決に努め、効率的なグラフマイニング基盤の確立を目指す。
|
Strategy for Future Research Activity |
本研究課題の残る期間においては、これまでに得られた知見と開発した手法を基盤として、より実践的な応用に向けた展開を図る。具体的には、提案した速フィルタリング手法について、実データへの適用を通じてその有効性を検証する。公共事業入札データ等から得られた大規模二部グラフデータを対象として、コミュニティ抽出への応用可能性を探る。その際、実データ特有のノイズや欠損への対処、計算リソースの最適化など、実運用に向けた課題の洗い出しと解決に努める。 また、階層的二部クラスタリングについては、ベンチマークデータによる予備実験で得られた知見を活かし、アルゴリズムの更なる改良を進める。特に、ハブ構造以外のノイズ構造への対応や、クラスタ粒度の自動決定手法の開発など、手法の汎用性と実用性の向上を目指す。並行して、実データを用いたケーススタディを行い、クラスタの解釈性の評価や、ユーザセグメンテーション、推薦システムなどの具体的なアプリケーションへの応用可能性を検討する。 これらの取り組みを通じて、二部グラフクラスタリングによる分析基盤の確立と、その実データへの応用を目指す。
|
Causes of Carryover |
次年度使用額が生じた主な理由は、実データを用いた応用研究の遅れにある。当初の計画では、提案手法の有効性を実証するために、地方公共事業入札データを中心とした実データを用いた分析を予定していた。しかしながら、データの整備に想定以上の時間を要することとなった。特に、公共事業入札データについては、データの形式や品質にばらつきがあり、分析に耐えうる形に洗浄・整形するためのデータ整備作業が大幅に遅延した。この状況を踏まえ、研究期間の1年間延長を行った。次年度においては、これまでに開発した手法を実データに適用し、その有効性を実証する。地方自治体の公共事業入札データなどを用いて、提案手法によるコミュニティ抽出や異常検知などの分析を行う。
|