研究課題/領域番号 |
23K24950
|
補助金の研究課題番号 |
22H03695 (2022-2023)
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 (2024) 補助金 (2022-2023) |
応募区分 | 一般 |
審査区分 |
小区分62020:ウェブ情報学およびサービス情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
小林 亮太 東京大学, 大学院新領域創成科学研究科, 准教授 (70549237)
|
研究分担者 |
宇野 毅明 国立情報学研究所, 情報学プリンシプル研究系, 教授 (00302977)
小山 慎介 統計数理研究所, 学際統計数理研究系, 准教授 (20589999)
橋本 隆子 千葉商科大学, 商経学部, 教授 (80551697)
|
研究期間 (年度) |
2022-04-01 – 2027-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円)
2026年度: 2,470千円 (直接経費: 1,900千円、間接経費: 570千円)
2025年度: 4,550千円 (直接経費: 3,500千円、間接経費: 1,050千円)
2024年度: 4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2023年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
2022年度: 3,770千円 (直接経費: 2,900千円、間接経費: 870千円)
|
キーワード | ソーシャルメディア分析 / 時系列モデル / 複雑ネットワーク / トピックモデル / トピック分析 / ネットワーク分析 / データサイエンス / 機械学習 |
研究開始時の研究の概要 |
本研究課題では、ソーシャルメディアデータから話題群の時系列変化を自動抽出し、その変化の要因を推定する技術を開発する。具体的には、応募者が研究を進めてきた時系列モデルとグラフマイニングを融合させたグラフ時系列モデルを開発するアプローチや近年発展の著しい大規模言語モデルを用いたアプローチなどにより、着目すべき話題を発見し、その話題についてのトレンドを分析する方法論を開発する。
|
研究実績の概要 |
2022年度には、ソーシャルメディアの多数の投稿データ (ツイート、ポストなど) から話題を抽出する手法開発とその応用を進めた。 1つ目のアプローチとして、グラフ分析による話題抽出手法を開発した。具体的には、頂点を投稿、枝を投稿間の類似性で定義することにより、投稿データからグラフを構築した。データ研磨 (Uno et al. 2017) やコミュニティ分析 (Blondel et al. 2008) を用いて、構築したグラフからクラスタ (大きな塊) を抽出することで話題を抽出する手法を構築した。2つ目のアプローチとして、大規模言語モデルによる話題抽出手法を開発した。投稿データをベクトル空間に埋め込むことによって話題を抽出する手法を開発した。 また、収集したデータ (2021年1~10月に投稿された「ワクチン」を含む全日本語ツイート: 1.1億ツイート)を網羅的に分析することにより、ワクチン接種期間中に、日本の人々が何を考え、何に関心を抱いたかを調べた。この結果、2021年6月の職域接種の開始を境に、ワクチン政策、関連ニュースなど社会的トピックに関するツイートの割合が減り、接種を受ける予定、接種後の副反応の報告など個人的事柄に関するツイートの割合が増えたことを発見した。この研究成果は、医療情報学の主要雑誌 Journal of Medical Internet Research から出版された (Kobayashi et al. JMIR 2022)。この成果は日経産業新聞、朝日新聞デジタルで紹介されるなど社会的注目も集めた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
ソーシャルメディアデータから話題を抽出する手法開発を順調に進めることができた。話題を抽出する手法開発についての研究成果は言語処理学会で発表を行った。新型コロナワクチン接種期間中の日本語ツイートの分析についての研究成果はJournal of Medical Internet Researchから出版できた。また、2022年7月に計算社会科学の主要国際会議 IC2S2 においてワクチンツイートのデータ分析についての研究成果を発表し、Luis Rocha 教授 (Ghent 大学) と議論を行った。
|
今後の研究の推進方策 |
まず、話題を抽出する手法開発についての研究を進め、研究成果を論文にまとめることを進める。次に、時系列モデルと話題を抽出する手法を融合させるアルゴリズムの開発に取り組む。そして、開発したアルゴリズムをTwitterなどのソーシャルメディアデータに適用することにより、開発技術の有効性を実証する。
|