研究課題/領域番号 |
19K12125
|
研究機関 | 学習院大学 |
研究代表者 |
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
キーワード | 二部クラスタリング / 二部グラフ |
研究実績の概要 |
本研究では、二つのカテゴリ間の二項関係を解析するために、大規模データに適用可能なアルゴリズムの開発を行うことを目指している。具体的には、その問題を大規模な二部クラスタリングとして捉え、既存のアルゴリズムの性質とそのデータへの適応性を実装・調査し、対象となるデータの性質に適応し、大規模データに対応できる高速なアルゴリズムを開発することを目指している。
昨年度までに我々が開発したアルゴリズムと既存の実装済みアルゴリズムを基に、カテゴリカルデータのクラスタリングへの応用とその評価を行った。初めに、食事時のコミュニケーション分析に二部クラスタリングを応用した。食事のシーンを映像として記録し、その中の発言を文字化したデータを用いて、発言者と発言内容による二部クラスタリングを実行し、それぞれの食事形式による会話行動の特徴の違いについて詳細に考察した。次に、選挙公報のテキストデータの分析への応用を試みた。これは過去20年間にわたる衆議院選挙の選挙公報に登場する候補者と単語、これら二つのカテゴリから成るデータに基づいて行った。このデータを用いて文書および候補者をクラスタリングし、抽出されたクラスタを利用して、政党と選挙年の影響を統制した回帰分析を実施した。選挙制度が中選挙区制から小選挙区比例代表並立制へと変わった前後の政党ごとの特徴について、日本の選挙に関する先行研究と対応する結果が得られることを確認した。これらの結果は、文書クラスタリングで広く使われているLDAよりもクラスタの粒度が細かく、候補者の個別性を捉えることができ、この分析においてはより適した性質を有している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
ある程度巨大なデータを扱えるアルゴリズムの開発および安定性の評価を行ったものの、大規模データ収集のための打合せおよびデータ整備を十分に行うことができなかったため、当初目指していた規模の巨大データによる評価および応用については若干遅れている。
|
今後の研究の推進方策 |
評価のための大規模データを収集・整備し、順次評価を行う予定である。
|
次年度使用額が生じた理由 |
コロナ禍により国内での出張をともなう打合せや国際会議への参加を見合わせたことから、主に出張旅費や学会参加費として計上していた予算を消化できなかったため。次年度は、打合せのための出張旅費、国際会議を含む成果発表および、開発手法を大規模データに適用するためのデータ収集と整備に使用する予定である。
|