Figure and ground approaches for scalable biclustering and their applications
Project/Area Number |
19K12125
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Gakushuin University |
Principal Investigator |
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2020: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2019: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
|
Keywords | 二部クラスタリング / 二部グラフ / クラスタリング / ネットワーク分析 / 行列分解 / 交差最小化 |
Outline of Research at the Start |
本研究では、商品とその購入者などの2つのカテゴリから構成される対象間の関係を記録したデータから、商品グループとそれに対応する購入者層のようなまとまりを見つけ出す問題に取り組む(この問題を二部クラスタリングとよぶ)。このような2者間の関係を2部グラフと呼ばれる構造によって表現し、膨大なデータを対象に問題を効率よく解くための手法の開発に新たな視点で取り組むとともに、既存手法の数理的な解析と新たな応用を探る。
|
Outline of Annual Research Achievements |
本研究では、二つのカテゴリ間の二項関係を解析するために、大規模データに適用可能なアルゴリズムの開発を行うことを目指している。具体的には、その問題を大規模な二部クラスタリングとして捉え、既存のアルゴリズムの性質とそのデータへの適応性を実装・調査し、対象となるデータの性質に適応し、大規模データに対応できる高速なアルゴリズムを開発することを目指している。
昨年度までに我々が開発したアルゴリズムと既存の実装済みアルゴリズムを基に、カテゴリカルデータのクラスタリングへの応用とその評価を行った。初めに、食事時のコミュニケーション分析に二部クラスタリングを応用した。食事のシーンを映像として記録し、その中の発言を文字化したデータを用いて、発言者と発言内容による二部クラスタリングを実行し、それぞれの食事形式による会話行動の特徴の違いについて詳細に考察した。次に、選挙公報のテキストデータの分析への応用を試みた。これは過去20年間にわたる衆議院選挙の選挙公報に登場する候補者と単語、これら二つのカテゴリから成るデータに基づいて行った。このデータを用いて文書および候補者をクラスタリングし、抽出されたクラスタを利用して、政党と選挙年の影響を統制した回帰分析を実施した。選挙制度が中選挙区制から小選挙区比例代表並立制へと変わった前後の政党ごとの特徴について、日本の選挙に関する先行研究と対応する結果が得られることを確認した。これらの結果は、文書クラスタリングで広く使われているLDAよりもクラスタの粒度が細かく、候補者の個別性を捉えることができ、この分析においてはより適した性質を有している。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
ある程度巨大なデータを扱えるアルゴリズムの開発および安定性の評価を行ったものの、大規模データ収集のための打合せおよびデータ整備を十分に行うことができなかったため、当初目指していた規模の巨大データによる評価および応用については若干遅れている。
|
Strategy for Future Research Activity |
評価のための大規模データを収集・整備し、順次評価を行う予定である。
|
Report
(4 results)
Research Products
(25 results)
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
[Journal Article] Twitter Topic Progress Visualization using Micro-clustering.2019
Author(s)
Hashimoto, T., Kusaba, A., Shepard, D., Kuboyama, T., Shin, K. and Uno, T.
-
Journal Title
Proc. of 9th International Conference on Pattern Recognition Applications and Methods
Volume: 1
Pages: 585-592
DOI
Related Report
Peer Reviewed / Int'l Joint Research
-
[Journal Article] A Fast Algorithm for Unsupervised Feature Value Selection.2019
Author(s)
Shin, K., Okumoto, K. Shepard, D., Kuboyama, T., Hashimoto, T., and Ohshima, H.
-
Journal Title
Proc. of 12th International Conference on Agents and Artificial Intelligence
Volume: 1
Pages: 203-213
DOI
Related Report
Peer Reviewed / Open Access / Int'l Joint Research
-
-
-
-
-
-
-