Project/Area Number |
23K24950
|
Project/Area Number (Other) |
22H03695 (2022-2023)
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Multi-year Fund (2024) Single-year Grants (2022-2023) |
Section | 一般 |
Review Section |
Basic Section 62020:Web informatics and service informatics-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
小林 亮太 東京大学, 大学院新領域創成科学研究科, 准教授 (70549237)
|
Co-Investigator(Kenkyū-buntansha) |
宇野 毅明 国立情報学研究所, 情報学プリンシプル研究系, 教授 (00302977)
小山 慎介 統計数理研究所, 学際統計数理研究系, 准教授 (20589999)
橋本 隆子 千葉商科大学, 商経学部, 教授 (80551697)
|
Project Period (FY) |
2022-04-01 – 2027-03-31
|
Project Status |
Granted (Fiscal Year 2024)
|
Budget Amount *help |
¥17,160,000 (Direct Cost: ¥13,200,000、Indirect Cost: ¥3,960,000)
Fiscal Year 2026: ¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000)
Fiscal Year 2025: ¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2024: ¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2023: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Fiscal Year 2022: ¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
|
Keywords | ソーシャルメディア分析 / 時系列モデル / 複雑ネットワーク / トピックモデル / トピック分析 / ネットワーク分析 / データサイエンス / 機械学習 |
Outline of Research at the Start |
本研究課題では、ソーシャルメディアデータから話題群の時系列変化を自動抽出し、その変化の要因を推定する技術を開発する。具体的には、応募者が研究を進めてきた時系列モデルとグラフマイニングを融合させたグラフ時系列モデルを開発するアプローチや近年発展の著しい大規模言語モデルを用いたアプローチなどにより、着目すべき話題を発見し、その話題についてのトレンドを分析する方法論を開発する。
|
Outline of Annual Research Achievements |
2022年度には、ソーシャルメディアの多数の投稿データ (ツイート、ポストなど) から話題を抽出する手法開発とその応用を進めた。 1つ目のアプローチとして、グラフ分析による話題抽出手法を開発した。具体的には、頂点を投稿、枝を投稿間の類似性で定義することにより、投稿データからグラフを構築した。データ研磨 (Uno et al. 2017) やコミュニティ分析 (Blondel et al. 2008) を用いて、構築したグラフからクラスタ (大きな塊) を抽出することで話題を抽出する手法を構築した。2つ目のアプローチとして、大規模言語モデルによる話題抽出手法を開発した。投稿データをベクトル空間に埋め込むことによって話題を抽出する手法を開発した。 また、収集したデータ (2021年1~10月に投稿された「ワクチン」を含む全日本語ツイート: 1.1億ツイート)を網羅的に分析することにより、ワクチン接種期間中に、日本の人々が何を考え、何に関心を抱いたかを調べた。この結果、2021年6月の職域接種の開始を境に、ワクチン政策、関連ニュースなど社会的トピックに関するツイートの割合が減り、接種を受ける予定、接種後の副反応の報告など個人的事柄に関するツイートの割合が増えたことを発見した。この研究成果は、医療情報学の主要雑誌 Journal of Medical Internet Research から出版された (Kobayashi et al. JMIR 2022)。この成果は日経産業新聞、朝日新聞デジタルで紹介されるなど社会的注目も集めた。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
ソーシャルメディアデータから話題を抽出する手法開発を順調に進めることができた。話題を抽出する手法開発についての研究成果は言語処理学会で発表を行った。新型コロナワクチン接種期間中の日本語ツイートの分析についての研究成果はJournal of Medical Internet Researchから出版できた。また、2022年7月に計算社会科学の主要国際会議 IC2S2 においてワクチンツイートのデータ分析についての研究成果を発表し、Luis Rocha 教授 (Ghent 大学) と議論を行った。
|
Strategy for Future Research Activity |
まず、話題を抽出する手法開発についての研究を進め、研究成果を論文にまとめることを進める。次に、時系列モデルと話題を抽出する手法を融合させるアルゴリズムの開発に取り組む。そして、開発したアルゴリズムをTwitterなどのソーシャルメディアデータに適用することにより、開発技術の有効性を実証する。
|