2019 Fiscal Year Annual Research Report
Efficient Text Big Data Mining Technology via Structure Extraction
Project/Area Number |
19H01133
|
Research Institution | National Institute of Informatics |
Principal Investigator |
宇野 毅明 国立情報学研究所, 情報学プリンシプル研究系, 教授 (00302977)
|
Co-Investigator(Kenkyū-buntansha) |
小林 亮太 国立情報学研究所, 情報学プリンシプル研究系, 助教 (70549237)
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
橋本 隆子 千葉商科大学, 商経学部, 教授 (80551697)
申 吉浩 学習院大学, 付置研究所, 教授 (60523587)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Keywords | ソーシャルメディア分析 / クラスタリング / アルゴリズム / 多様性 / 形質 |
Outline of Annual Research Achievements |
本年度は、ソーシャルメディア上の議論の動きやデマ、ヘイトなど、大きな偏りを持った動きが、実際どのような変遷を経ておこってきたのか、そのさいに、形質上の特徴がどのようなものであったかを、具体的な例を精査して調査研究するために、まず、このような群衆行動がおこる構造の面の知見が豊富な社会心理学の概念を調査し、それをSNS上の動きや形質との対応を見ることで分析を行った。デマ流布については、この課題の着想に至った原点である、情報源が単一であることによる多様性の低下という観察があったが、その他にも、媒介する投稿者たちの興味の低さが関係していそうだということが観察された。また、ヘイトについては、単なる嫌悪感情だけでなく、公正世界仮説に基づく行動が行われているようであることも観察された。これらがもたらす形質の変化は、使用する単語が初等的になる、意味的に類似するクラスタがありそうだなどの観察を得た。 これらをもとにした簡潔なモデルをマイクロクラスタリングを使ってアルゴリズムとして実装し、計算実験を行った。結果を観察すると、実際に頻度の高い単語の共通性が高いクラスタ群が観察され、モデルの方向性の正しさを検証することができた。今後はこのモデルのさらなる改良、安定化を行っていく。 招聘予定であった北米の David Shepard 氏は、コロナ禍のため実現が不可能となり、予算を繰り越して2020年度に延期した。しかし20年度もコロナ禍は収束せず、結局招聘はとりやめた。代わりに、メールなどによる議論と、日本側での調査実装により、Webからのテキストデータの収集ツールを構築し、プログラムとして実装した。 同時に、マイニング計算の基礎となる離散アルゴリズムについても、いくつかの新しい成果を得ることに成功した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画通り、SNS上で観察される群衆行動を観察し、その形質をモデル化することが進んでいる。特に、社会心理学の知見をふまえた観察によって、公正世界仮説に基づく誹謗中傷など、新たな考察と、それが導くSNSの様相の特徴を得ることができている。 データ取得においても、データ取得手法とノウハウの調査が完了するとともに、ツールの作成が終了し、データ取得が進められる状況となっている。 アルゴリズム面においても、基礎となる離散アルゴリズムやデータマイニングアルゴリズムの開発が進んでいる。
|
Strategy for Future Research Activity |
多様性をクラスタで測るモデルをより一層深め、より安定的に物事を測れるようなモデルを開発する。現在のモデルはパラメータ依存の面があるため、これを排除するか、あるいは影響を少なくするようなものが必要である。また、時系列上での多様性の推移を可視化するモデルや、時系列データのクラスタリングを用いた分析を行うことでトピックの可視化を行う手法についても開発を行っていく。 また、これらの開発したモデルをより高性能な形で実装しテイクとともに、より大きなデータの解析を進め、その効果を検証し議論して、SNS上での群衆の作り出す文書集合の形質を明らかにする。特に、典型的な事例について、どのような事象が起きているのかを形質の面から分類できるような手法を目指し、観察と考察を行い、それらを手掛かりにモデルとアルゴリズムを開発する。
|
Research Products
(19 results)