研究課題/領域番号 |
18H03338
|
研究機関 | 北海道大学 |
研究代表者 |
吉岡 真治 北海道大学, 情報科学研究院, 教授 (40290879)
|
研究分担者 |
伊藤 正彦 北海道情報大学, 情報メディア学部, 准教授 (60466422)
神門 典子 国立情報学研究所, 情報社会相関研究系, 教授 (80270445)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | テキストマイニング / 報道分析 / 可視化 / オピニオンマイニング / オントロジー |
研究実績の概要 |
本年度は、昨年度までに提案した、ニュースの記事分類(政治・経済・国際など)ごとを考慮した賛否の分布スタンスの分布により特徴付けられたニュースサイト群について、その類似性・非類似性に基づいて可視化する方法を提案するとともに、ユーザの興味(経済には興味はあるが国際には興味がない)により、その可視化の結果をインタラクティブに操作するニュースサイトの比較システムの提案を行った。 このシステムで分析を行うためには、各ニュースサイトの記事について、記事分類を行う必要がある。この問題に対し、ニュース記事のURLの構造に注目し、深層学習を用いて記事分類を行う方法を提案し、本文のテキスト情報を有しないGDELTのデータを用いても、十分な記事分類が行えることを確認した。 また、このインタラクティブな操作を行うニュースサイトの比較システムでは、自分が類似しているというサイトを近くに配置し、非類似と考えるサイトを遠くに配置するといった操作から、どの記事分類の違いを重要視しているか(あるいは無視しているのか)を推定するとともに、その分析結果のフィードバックを返すとともに、直接操作していない他のニュースサイトについても、その興味に応じて再プロットすることができる。この結果、国際的な事象に興味があるユーザと国内の政治への興味が近いユーザには、異なる分析結果を提供することが可能になる。 また、ニュース記事中の固有名詞とそのタイプを扱うために、Wikipediaのカテゴリ情報に注目した名前付き実体の分類のためのオントロジー構築についても、並行して研究を行なっている。このオントロジーとWikipediaのページのリダイレクトの情報を利用した異表記に関する知識を作成することで、名前付き実体の異表記を取りまとめて扱う方法についても検討を行なっている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は、昨年度提案したニュース記事の分類とその賛否に基づいたスタンスを用いて、ニュースサイトを可視化するとともに、ユーザの興味に応じてインタラクティブに可視化結果を変更することができるニュースサイトの比較分析システムを提案した。このシステムは、本研究の最終目標に対するプロトタイプシステムであり、今後の要素技術の改善や利用実験を行なって行く際の基盤となる。また、本研究で利用するGDELTのデータの品質向上のための研究として、ニュースの記事分類を自動付与する方法やオントロジー構築についても検討しており、今後のデータの洗練化につなげていきたいと考えている。 今後は、要素技術の洗練化を図るとともに、実際のニュースの分析実験を行い、システムの有用性について検討して行く予定である。
|
今後の研究の推進方策 |
本研究では、要素技術を情報科学の観点から洗練化することも重要であるが、その評価の枠組についての検討を並行して行って行く必要がある。現時点で作成したシステムについて、情報システムとしての挙動については、問題ないことを確認しているが、結果を解釈するためには、各ニュースサイトがどのようなサイトであり、各々の話題についてどういうスタンスを持っているのか、といった基礎知識を持つか、表示結果に基づいて、特徴的なニュースサイト群について、その共通性や非類似性がユーザの興味にあっているかといった比較をして行く必要がある。メディアのバイアスについて紹介しているWebサイトなどの情報も活用しながら、本システムの有用性をどのように評価して行くのかを検討することが重要であると考えている。
|