研究課題/領域番号 |
18H03338
|
研究機関 | 北海道大学 |
研究代表者 |
吉岡 真治 北海道大学, 情報科学研究院, 教授 (40290879)
|
研究分担者 |
伊藤 正彦 北海道情報大学, 情報メディア学部, 准教授 (60466422)
神門 典子 国立情報学研究所, 情報社会相関研究系, 教授 (80270445)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | テキストマイニング / 報道分析 / 可視化 / オピニオンマイニング / オントロジー |
研究実績の概要 |
本年度は、これまで利用してきたニュース記事のデータベースであるGDELTにおける記事のメタデータ(記事中に含まれる人物などの固有名のリスト、賛否の割合、ニュースサイトの情報など)を利用した分析には、限界があることを踏まえて、ニュース記事の本文データを利用した分析を行った。具体的には、メタデータに含まれる参照元のURLから本文データを獲得することで、本文の詳細なデータを用いた記事のトピック分類や、Sentiment analysisの結果を用いたニュースの分析が可能となる。新しい分析データと既存のデータの性質を比較するために、トランプ大統領の記事を用いた分析を行った。その結果、文書中の賛否を表す文の分布を用いることで、GDELTと同様に、代表的な右翼・左翼に属するサイトが特徴づけられることを確認した。また、2020年3月のトランプ大統領に記述を含む新聞記事を用いて、トピック分類を行ったところ、国内外におけるコロナウィルスの話題や、大統領選挙といったより詳細なトピックに相当する記事群が作成できることを確認した。一方、これらのトピックの中には、コロナウィルスにおける感染者増大の話題のように、どのようなサイトにも共通して否定的な記事が多いものもあり、このような社会的に大きな影響を与えるような事象があった場合の取り扱いなど、研究計画の段階では、あまり明確になっていなかった問題などが明らかになり、今後、この研究を発展させるための研究の報告性に関する知見を得た。また、並行して行っていたWikipediaカテゴリに基づくオントロジーについては、Linked Open Data(LOD)として公開した。また、論理的含意関係の分析については、論理的関係に注目したデータ拡張手法の有用性を確認し、今後の展開についても検討を行なっている。
|
現在までの達成度 (段落) |
令和3年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和3年度が最終年度であるため、記入しない。
|