研究課題/領域番号 |
22K12285
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分62020:ウェブ情報学およびサービス情報学関連
|
研究機関 | 国立情報学研究所 |
研究代表者 |
須田 永遠 国立情報学研究所, 情報学プリンシプル研究系, 特任研究員 (40933411)
|
研究分担者 |
栗田 和宏 名古屋大学, 情報学研究科, 助教 (40885266)
武富 有香 国立情報学研究所, 情報学プリンシプル研究系, 特任研究員 (60941101)
|
研究期間 (年度) |
2022-04-01 – 2027-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2026年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2025年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2024年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2023年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2022年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
|
キーワード | ソーシャルメディア / 異分野融合 / ナラティブ / 列挙アルゴリズム / 意味解釈 / 心的状態 / 言語的特徴 / 人々の関心の変化 / ナラティヴの類型 / テキストマイニング / 準最適解の列挙 / SNS / 文体論 / ナラティヴ |
研究開始時の研究の概要 |
ソーシャルメディア上のテキストを解析するための日本語文体論を構築することを目指して、これまでSNS解析や自然言語処理で捉えることが難しいとされてきた意図や心理の問題に、文学研究が扱うような書き手の文章的特徴からアプローチを行う。具体的には人間の感情が表出していると思われるテキストサンプルをSNS上で収集し、発話されたコンテキストに着目しながらトピックごとに共通する言語的特徴を割り出す。従来の文体論の知見をSNS解析に応用可能なものとすることを念頭に、情報学と文学の研究者が協働して遂行する。
|
研究実績の概要 |
昨年度に引き続き、書き手の反応や心的状態の類型と言語的特徴を探るため、影響力のある二つのソーシャルメディアを対象として分析を行い、並行して解析に必要なマイニング技術を下支えするアルゴリズムの開発を行った。これらの成果は国内学会や研究会等で発表を行った。また、本プロジェクトを通じて得られた分野融合研究の知見に関する記事を執筆し、学会誌に寄稿した。 (i) Yahoo!コメントやTwitterの研究成果を国内学会・研究会で発表:昨年度から継続して行っているYahoo!コメント上に現れる女性への誹謗中傷の類型に関する研究成果を、情報学・アルゴリズム分野の研究者が集まる研究会にて発表した。同じく昨年から継続する新型コロナワクチンに関する大規模なツイートデータ分析について、人工知能学会全国大会で発表を行った。どちらにおいても解析の手法やデザイン、今後の方向性について有益なコメントを得ることができた。 (ii)大規模Twitterデータの分析:新型コロナウイルスワクチン接種期間中にTwitterで投稿された「ワクチン」の語を含む1億件以上の日本語の全ツイートデータを収集し、クラスタリングによって得られた各トピックの10か月間の詳細な内容について、人手での読解と単語の頻度分析に基づいた仮説の構築とその検証を行った。この成果はすでに論文誌に投稿し、現在査読中である。 (iii)異分野融合研究に関する記事を執筆:情報学と人文学との異分野融合による研究の意義と方法論、活動の実際について情報処理学会の学会誌『情報処理』に記事を寄稿した。 (iv)グラフデータマイニングの基盤技術となる、部分グラフ列挙の効率良いアルゴリズムについての研究:この研究を通じて、実用的であろう解のみを列挙するアルゴリズムを開発し、実用的に用いられているアルゴリズムの理論的な改善が不可能であることを明らかにした。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
昨年度同様、ソーシャルメディアのテキストについて高度な意味解釈を通じた分析による研究成果を発表することができている。また、本研究は分野横断的な研究であるため、情報学の技術と文学の読解技術とを組み合わせた方法論それ自体の構築も必要であるが、本年度は外部の研究者とのディスカッションや異分野融合に関する記事執筆などを通じて、方法論を明確化できつつある。
|
今後の研究の推進方策 |
同様の方法論を用いて、より広いトピックのソーシャルメディアデータを対象に分析を進めていく。また大規模言語モデルに基づく生成AIを用いることで、一定程度の意味理解をともなうアノテーションを自動化できることがわかりつつある。したがって具体的なプロンプトエンジニアリング含め、解析への有効な活用方法を模索していくことも急務となる。
|