研究課題/領域番号 |
19K12125
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 学習院大学 |
研究代表者 |
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2022年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2021年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2020年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2019年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
|
キーワード | 二部クラスタリング / 二部グラフ / クラスタリング / ネットワーク分析 / 行列分解 / 交差最小化 |
研究開始時の研究の概要 |
本研究では、商品とその購入者などの2つのカテゴリから構成される対象間の関係を記録したデータから、商品グループとそれに対応する購入者層のようなまとまりを見つけ出す問題に取り組む(この問題を二部クラスタリングとよぶ)。このような2者間の関係を2部グラフと呼ばれる構造によって表現し、膨大なデータを対象に問題を効率よく解くための手法の開発に新たな視点で取り組むとともに、既存手法の数理的な解析と新たな応用を探る。
|
研究実績の概要 |
本研究では、二つのカテゴリ間の二項関係を解析するために、大規模データに適用可能なアルゴリズムの開発を行うことを目指している。具体的には、その問題を大規模な二部クラスタリングとして捉え、既存のアルゴリズムの性質とそのデータへの適応性を実装・調査し、対象となるデータの性質に適応し、大規模データに対応できる高速なアルゴリズムを開発することを目指している。
昨年度までに我々が開発したアルゴリズムと既存の実装済みアルゴリズムを基に、カテゴリカルデータのクラスタリングへの応用とその評価を行った。初めに、食事時のコミュニケーション分析に二部クラスタリングを応用した。食事のシーンを映像として記録し、その中の発言を文字化したデータを用いて、発言者と発言内容による二部クラスタリングを実行し、それぞれの食事形式による会話行動の特徴の違いについて詳細に考察した。次に、選挙公報のテキストデータの分析への応用を試みた。これは過去20年間にわたる衆議院選挙の選挙公報に登場する候補者と単語、これら二つのカテゴリから成るデータに基づいて行った。このデータを用いて文書および候補者をクラスタリングし、抽出されたクラスタを利用して、政党と選挙年の影響を統制した回帰分析を実施した。選挙制度が中選挙区制から小選挙区比例代表並立制へと変わった前後の政党ごとの特徴について、日本の選挙に関する先行研究と対応する結果が得られることを確認した。これらの結果は、文書クラスタリングで広く使われているLDAよりもクラスタの粒度が細かく、候補者の個別性を捉えることができ、この分析においてはより適した性質を有している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
ある程度巨大なデータを扱えるアルゴリズムの開発および安定性の評価を行ったものの、大規模データ収集のための打合せおよびデータ整備を十分に行うことができなかったため、当初目指していた規模の巨大データによる評価および応用については若干遅れている。
|
今後の研究の推進方策 |
評価のための大規模データを収集・整備し、順次評価を行う予定である。
|