Project/Area Number |
19K12125
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Gakushuin University |
Principal Investigator |
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
|
Project Period (FY) |
2019-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2020: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2019: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
|
Keywords | 二部グラフ / クラスタリング / コミュニティ抽出 / 数え上げ / 二部クラスタリング / ネットワーク分析 / 行列分解 / 交差最小化 |
Outline of Research at the Start |
本研究では、商品とその購入者などの2つのカテゴリから構成される対象間の関係を記録したデータから、商品グループとそれに対応する購入者層のようなまとまりを見つけ出す問題に取り組む(この問題を二部クラスタリングとよぶ)。このような2者間の関係を2部グラフと呼ばれる構造によって表現し、膨大なデータを対象に問題を効率よく解くための手法の開発に新たな視点で取り組むとともに、既存手法の数理的な解析と新たな応用を探る。
|
Outline of Annual Research Achievements |
本研究では申請書に示した目的に従い、大規模二部グラフデータから効率的にコミュニティを抽出する手法の開発に取り組んだ。グラフのハッシュ化によるスケッチ表現を用いた高速なフィルタリング手法の検討を進め、ある程度の成果を得ることができた。具体的には、スケッチ表現同士の非対称距離を活用することで、検索の再現率を高められることに着目し、複数のハミング距離ベースのスケッチ列挙を組み合わせる新たな手法を提案した。これにより、非対称距離を近似的に表現しつつ、並列処理による高速化を実現できることを示した。 また、本研究の一環として、バタフライ構造の数え上げ及びウイング分解に基づく階層的二部クラスタリングについて検討を行った。まず、大規模な二部グラフデータを対象に本手法を適用し、その性質を調査したところ、ハブ構造がクラスタリングを妨げる要因となることが判明した。そこで、前処理としてハブ構造の除去を組み込み、密度の高い部分構造が得られるよう手法の改良を行った。構造的には性質の良いクラスタを高速に抽出できる見通しが得られた。本研究の成果は、大規模なグラフ構造データの分析を加速する上で意義を持つと考えられる。提案手法によりコミュニティ抽出の計算効率が改善されれば、ソーシャルメディアなどの膨大なユーザ間の関係性を手軽に分析できるようになり、様々な応用が期待できる。引き続き、高速かつ実用的なグラフマイニング技術の確立を目指して研究を進める。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究課題については、実データを用いた実証に至る過程で、当初の計画から若干の遅れが生じているものの、概ね順調に進捗していると評価している。現時点での達成状況を鑑み、研究期間延長を行い、研究目的の完遂を図る予定である。 二部グラフのスケッチ表現を用いた高速フィルタリング手法の開発を行い、非対称距離の活用により検索性能を向上させる新たな手法を考案し、並列処理との組み合わせによる更なる高速化の可能性を示した。大規模データセットを用いた実験により、提案手法の有効性を確認した。また、階層的二部クラスタリングについても検討を進め、大規模二部グラフデータへの適用を通じて、手法の改良点を明らかにした。前処理としてハブ構造除去を組み込むことで、アルゴリズムの性能向上を図った。匿名化データによる予備実験では、良質なクラスタの高速抽出に向けて期待できる結果が得られている。残る研究期間では、提案手法の実データへの応用と分析を中心に進める計画である。実運用に向けた課題の洗い出しと解決に努め、効率的なグラフマイニング基盤の確立を目指す。
|
Strategy for Future Research Activity |
本研究課題の残る期間においては、これまでに得られた知見と開発した手法を基盤として、より実践的な応用に向けた展開を図る。具体的には、提案した速フィルタリング手法について、実データへの適用を通じてその有効性を検証する。公共事業入札データ等から得られた大規模二部グラフデータを対象として、コミュニティ抽出への応用可能性を探る。その際、実データ特有のノイズや欠損への対処、計算リソースの最適化など、実運用に向けた課題の洗い出しと解決に努める。 また、階層的二部クラスタリングについては、ベンチマークデータによる予備実験で得られた知見を活かし、アルゴリズムの更なる改良を進める。特に、ハブ構造以外のノイズ構造への対応や、クラスタ粒度の自動決定手法の開発など、手法の汎用性と実用性の向上を目指す。並行して、実データを用いたケーススタディを行い、クラスタの解釈性の評価や、ユーザセグメンテーション、推薦システムなどの具体的なアプリケーションへの応用可能性を検討する。 これらの取り組みを通じて、二部グラフクラスタリングによる分析基盤の確立と、その実データへの応用を目指す。
|