研究課題
前年度に引き続き、SNS投稿データ・議事録・新聞記事のそれぞれについて、大規模言語モデルの事前学習とファインチューンを試みた。議会議事録に関しては、shared task(コンテスト)の集合体である国際会議NTCIR-17のQA Lab-PoliInfo-4タスクに参加して、Stance Classificationサブタスクにおいて参加者中首位の成績を収めた。このサブタスクは、地方自治体議事録において発言した各議員の賛否の自動推測を行い、タスク運営側が提供するデータを用いて参加者間の性能評価を競うもので、我々は同ドメインデータの段階的事前学習が有効であることを示した。SNS投稿データの収集については利用する商用サービスの利用規定変更により予定の変更を余儀なくされたが、主に収集済みの投稿データとクラウドソーシング調査結果に基づき、オンラインアカウントの各種属性推測を行った。我々が独自に進めているクラウドソーシング調査は、アクティブに投稿を行っているSNSユーザに対し、投稿データを収集するとともに様々な個人的、政治的属性についてアンケートに答えてもらうものである。また、テキスト間の論理的関係性判断の基盤となる含意関係認識の研究を進めるとともに、含意関係認識システムの性能向上を確認した。さらに、大規模SNSデータによる言語モデルの事前学習を行い、大規模SNSデータで学習されたこれまでに最も高い性能を報告しているモデルを多くのタスク評価で上回る性能を達成した。
2: おおむね順調に進展している
SNS投稿データの収集については商用サービスの利用規定変更により方針変更を余儀なくされたが、主に収集済みの投稿データとクラウドソーシング調査結果に基づき、おおむね予定通りの研究を進めることができた。
前年度に引き続き、SNS投稿データ・国会議事録・新聞記事のそれぞれについて、大規模言語モデルの事前学習と適用、性能向上を試みる。含意関係・矛盾関係の自動判定のため、本研究に適したデータセットの構築を試みるとともに、現実的な設定においてどのようなパターンがあり、どのような課題がありうるか探求する。ファインチューニングとして、SNS投稿がどの程度評価・引用されるかについて、時系列を加味した推測と、政党や政策の支持率を推測するタスク設定で学習と評価を行う。なお、代表者は自然言語処理および機械学習部分を、分担者(野中・三輪)は政党政策の支持率およびその調査に関連する政治学的分析部分を、分担者(五十嵐)は対外国人意識の調査部分を、分担者(岸本)はSNS投稿のユーザ分析部分を、それぞれ担当する。
すべて 2024 2023
すべて 雑誌論文 (11件) (うち国際共著 3件、 査読あり 8件、 オープンアクセス 8件) 学会発表 (22件) (うち国際学会 5件)
『学士会会報』
巻: 964 ページ: 43~47
人工知能学会誌
巻: 39 ページ: -
The Review of Socionetwork Strategies
巻: 18 ページ: 123~143
10.1007/s12626-024-00155-5
巻: 18 ページ: 27~47
10.1007/s12626-023-00152-0
Party Politics
巻: - ページ: 1~11
10.1177/13540688231195197
三色旗
巻: 847 ページ: 3-10
『学習院大学法学会雑誌』
巻: 59 ページ: 173~202
Lecture Notes in Computer Science (LNAI)
巻: 13859 ページ: 51~67
10.1007/978-3-031-29168-5_4
巻: 13859 ページ: 138~153
10.1007/978-3-031-29168-5_10
Psychiatry Clin Neurosci
巻: 77 ページ: 273~281
巻: 77 ページ: 559~568