Foundation of Japanese stylistics for social media analysis
Project/Area Number |
22K12285
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 62020:Web informatics and service informatics-related
|
Research Institution | National Institute of Informatics |
Principal Investigator |
須田 永遠 国立情報学研究所, 情報学プリンシプル研究系, 特任研究員 (40933411)
|
Co-Investigator(Kenkyū-buntansha) |
栗田 和宏 名古屋大学, 情報学研究科, 助教 (40885266)
武富 有香 国立情報学研究所, 情報学プリンシプル研究系, 特任研究員 (60941101)
|
Project Period (FY) |
2022-04-01 – 2027-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2026: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
Fiscal Year 2025: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2024: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2023: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2022: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
|
Keywords | ソーシャルメディア / 異分野融合 / ナラティブ / 列挙アルゴリズム / 意味解釈 / 心的状態 / 言語的特徴 / 人々の関心の変化 / ナラティヴの類型 / テキストマイニング / 準最適解の列挙 / SNS / 文体論 / ナラティヴ |
Outline of Research at the Start |
ソーシャルメディア上のテキストを解析するための日本語文体論を構築することを目指して、これまでSNS解析や自然言語処理で捉えることが難しいとされてきた意図や心理の問題に、文学研究が扱うような書き手の文章的特徴からアプローチを行う。具体的には人間の感情が表出していると思われるテキストサンプルをSNS上で収集し、発話されたコンテキストに着目しながらトピックごとに共通する言語的特徴を割り出す。従来の文体論の知見をSNS解析に応用可能なものとすることを念頭に、情報学と文学の研究者が協働して遂行する。
|
Outline of Annual Research Achievements |
昨年度に引き続き、書き手の反応や心的状態の類型と言語的特徴を探るため、影響力のある二つのソーシャルメディアを対象として分析を行い、並行して解析に必要なマイニング技術を下支えするアルゴリズムの開発を行った。これらの成果は国内学会や研究会等で発表を行った。また、本プロジェクトを通じて得られた分野融合研究の知見に関する記事を執筆し、学会誌に寄稿した。 (i) Yahoo!コメントやTwitterの研究成果を国内学会・研究会で発表:昨年度から継続して行っているYahoo!コメント上に現れる女性への誹謗中傷の類型に関する研究成果を、情報学・アルゴリズム分野の研究者が集まる研究会にて発表した。同じく昨年から継続する新型コロナワクチンに関する大規模なツイートデータ分析について、人工知能学会全国大会で発表を行った。どちらにおいても解析の手法やデザイン、今後の方向性について有益なコメントを得ることができた。 (ii)大規模Twitterデータの分析:新型コロナウイルスワクチン接種期間中にTwitterで投稿された「ワクチン」の語を含む1億件以上の日本語の全ツイートデータを収集し、クラスタリングによって得られた各トピックの10か月間の詳細な内容について、人手での読解と単語の頻度分析に基づいた仮説の構築とその検証を行った。この成果はすでに論文誌に投稿し、現在査読中である。 (iii)異分野融合研究に関する記事を執筆:情報学と人文学との異分野融合による研究の意義と方法論、活動の実際について情報処理学会の学会誌『情報処理』に記事を寄稿した。 (iv)グラフデータマイニングの基盤技術となる、部分グラフ列挙の効率良いアルゴリズムについての研究:この研究を通じて、実用的であろう解のみを列挙するアルゴリズムを開発し、実用的に用いられているアルゴリズムの理論的な改善が不可能であることを明らかにした。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
昨年度同様、ソーシャルメディアのテキストについて高度な意味解釈を通じた分析による研究成果を発表することができている。また、本研究は分野横断的な研究であるため、情報学の技術と文学の読解技術とを組み合わせた方法論それ自体の構築も必要であるが、本年度は外部の研究者とのディスカッションや異分野融合に関する記事執筆などを通じて、方法論を明確化できつつある。
|
Strategy for Future Research Activity |
同様の方法論を用いて、より広いトピックのソーシャルメディアデータを対象に分析を進めていく。また大規模言語モデルに基づく生成AIを用いることで、一定程度の意味理解をともなうアノテーションを自動化できることがわかりつつある。したがって具体的なプロンプトエンジニアリング含め、解析への有効な活用方法を模索していくことも急務となる。
|
Report
(2 results)
Research Products
(23 results)