研究課題/領域番号 |
18H03338
|
研究機関 | 北海道大学 |
研究代表者 |
吉岡 真治 北海道大学, 情報科学研究科, 教授 (40290879)
|
研究分担者 |
神門 典子 国立情報学研究所, 情報社会相関研究系, 教授 (80270445)
伊藤 正彦 国立研究開発法人情報通信研究機構, 統合ビッグデータ研究センターソーシャルビッグデータ研究連携センター, 主任研究員 (60466422)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | テキストマイニング / 報道分析 / 可視化 / オピニオンマイニング / オントロジー |
研究実績の概要 |
本年度は、本研究の分析の基盤となる報道スタンスについて、特定のスタンスに属するサイトにおける特徴語について検討するとともに、単純な賛否のみに注目した分析だけでなく、ニュース記事の分類に基づいたスタンスの詳細化を行う方法を提案した。本手法では、ニュース記事の分類と賛否の情報を組み合わせることで、外交には賛成だが、経済では反対といった、より、詳細なスタンス分析が可能となる。本手法は、ユーザの興味(経済には興味はあるが外交には興味がない)と組み合わせることにより、興味に応じたスタンスの分析などに発展することが期待できる。 また、ニュース記事の賛否情報を含むメタデータのデータベースであるGDELTにおいて、不足している本文の情報について、可能な限り収集する枠組を構築し、本研究で用いるデータベースの拡充も行なっている。さらに、GDELTについている賛否情報について、その妥当性を検証するとともに、必要に応じた、再評価を行うために、深層学習による意見分析システムについても実装をはじめ、その有用性を検討している。 また、ニュース記事中の固有名詞とそのタイプを扱うために、Wikipediaのカテゴリ情報に注目した名前付き実体の分類のためのオントロジー構築についても、並行して研究を行なっている。このオントロジーとWikipediaのページのリダイレクトの情報を利用した異表記に関する知識を作成することで、名前付き実体の異表記を取りまとめて扱う方法についても検討を行なっている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は、本研究の分析の基盤となる報道スタンスについて、単純な賛否のみに注目した分析だけでなく、ニュース記事の分類に基づいたスタンスの詳細化を行う方法を提案するとともに、その特徴語を収集する方法を提案した。これは、本研究で用いる基盤技術であり、今後のユーザインタフェースの構築や利用実験を行なって行く際の基盤となる。また、本研究で利用するGDELTのデータの品質向上のための研究として、オピニオンマイニングやオントロジー構築についても検討しており、今後のデータの洗練化につなげていきたいと考えている。 今後は、ユーザインタフェースや利用実験のための環境を整えていくとともに、この基盤技術の洗練化も並行して行なっていく予定である。
|
今後の研究の推進方策 |
本年度は、昨年度までに検討を進めてきたニュースのカテゴリを用いた報道スタンスの詳細化の結果として得られたカテゴリに特徴付けられたスタンス(外交には賛成だが、経済では反対といった、記事のカテゴリを考慮した詳細化したスタンス)の考え方に基づいた可視化システムを構築する。具体的には、ユーザの興味のあるカテゴリを考慮して、興味のあるカテゴリで類似したスタンスを持つものを近くに配置するといったインタラクティブな操作を可能とすることで、ユーザの興味に応じたニュースサイトの俯瞰的な分析を可能とする。 また、前年度に行なった報道スタンスの詳細化に用いるニュース記事のカテゴリ分類についても、より大規模なデータを利用することで、精度の高い記事のカテゴリ推定が行える方法についても検討を行う。 これらの枠組みについて、特定の話題(大統領選挙期間中のニュース記事)を題材として、簡単な動作検証を行う。 並行して、オピニオンマイニングの結果や、名前付き実体に関するオントロジー構築の結果を考慮した名寄せ(異表記の取りまとめ)などのデータの洗練化の手法についても検討する。
|