2016 年度実施状況報告書

言語表現の使用実態を踏まえたソーシャルメディア上の誹謗中傷行為の検出に関する研究

研究課題

研究課題/領域番号	15K20884
研究機関	筑波大学
研究代表者	乾孝司筑波大学, システム情報系, 准教授 (60397031)
研究期間 (年度)	2015-04-01 – 2018-03-31
キーワード	有害情報 / 誹謗中傷 / ソーシャルメディア / 自然言語処理 / 仮想教師事例
研究実績の概要	本研究課題は，ソーシャルメディア上に流れる誹謗中傷行為の高精度な自動検出技術を開発することを目的とする．平成28年度は，昨年度に引き続き，インターネット上の実投稿テキストデータを対象として誹謗中傷行為に使用される言語表現の実態調査をおこなった．また，実態調査の結果に基づき，昨年度開発した誹謗中傷検出モデルのプロトタイプを改良した．言語表現の使用実態調査では，昨年度に加え新たに2,100投稿のテキストデータを対象として誹謗中傷行為に使用される言語表現の実態調査をおこなった．この結果，誹謗中傷の検出に有効な言語表現は投稿内の限られた一部の箇所にのみ出現する傾向があることがわかった．上記の調査結果を踏まえ，誹謗中傷検出モデルのプロトタイプを改良した．具体的には，検出モデルの構築時に利用する教師事例の不足を補うために仮想教師事例を自動生成するが，その際に，既存手法に対して上記の出現傾向を考慮した手法（事例プール法および単語に関する出現分布法）を提案し，モデル構築をおこない，その有効性を検証した．さらに，誹謗中傷行為を受けている被害者情報を自動取得する足がかりとして，投稿内から人物（および組織）表現を自動抽出する方法論に対する現状の問題点について，固有表現の要素となる割合および固有表現の要素となる場合のその固有表現の異なり度合いに基づいて言語表現毎に抽出難易度を測定し，人物表現自動抽出手法の性能と抽出難易度の関係性を調べた．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由平成28年度は，インターネット上の実投稿テキストデータを対象として誹謗中傷行為に使用される言語表現の実態調査をおこない，また，その結果に基づいて誹謗中傷検出モデルのプロトタイプを改良する計画であったが，以下の通り，概ね計画通り進行している．言語表現の使用実態調査では，今年度新たに2,100投稿のテキストデータを調査対象に追加し，継続調査を実施した．その結果，検出モデルの改良に繋がる幾つかの知見を得た．例えば，誹謗中傷検出モデルの構築にとって有効な言語表現は投稿内の限られた一部の箇所にのみ限定的に出現する傾向があることがわかった．上記の知見にもとに，誹謗中傷検出モデルのプロトタイプを改良した．プロトタイプでは，検出モデルの構築時に利用する教師事例の不足を補うために仮想教師事例を自動生成する．この自動生成の既存研究では仮想教師事例を生成する際に文章（本研究では投稿テキスト）中の一部分を編集する（単語を追加，削除する）操作をおこなうが，上記で述べた知見を考慮しないため誹謗中傷行為に直接関与する単語も編集してしまう致命的な問題があった．この問題に対して，事例プール法および単語に関する出現分布法という２つの手法を提案し，モデルの改良を検討した．評価実験を通した検証した結果，多くの実験設定において提案手法が有効であることを確認した．さらに，誹謗中傷行為を受けている被害者情報を自動取得する足がかりとして，投稿内から人物（および組織）表現を自動抽出する方法に対する現状の問題点を検討した．具体的には，固有表現の要素となる割合および固有表現の要素となる場合のその固有表現の異なり度合いに基づいて言語表現毎に抽出難易度を測定した．その結果，抽出難易度と抽出性能に相関関係が認められること，抽出難易度の高い事例は表現自体が短く，その原因として省略表現が多用されていること等が明らかになった．
今後の研究の推進方策	これまでの状況を踏まえ，平成29年度は次の項目に取り組む計画である．（１）今年度の検討から得られた知見に基づいて，ソーシャルメディア上の誹謗中傷行為における被害者の情報を自動取得する手法を開発する．これによって，誹謗中傷検出モデルのさらなる改良を検討する．現在，条件付確率場に基づく人物表現抽出手法の実装を終えており，この手法をベースにして投稿中の被害者の情報を自動取得する手法を開発する．（２）これまでの各工程を統合することで，言語表現の使用実態に即した誹謗中傷検出モデルの総合的な評価を実施する．
次年度使用額が生じた理由	主に，スケジュールの都合で学会への参加回数が予定回数よりも少なくなり学会参加にかかる経費分について次年度使用額が生じた．
次年度使用額の使用計画	今年度未使用額および翌年度の助成金については，モデル開発経費，学会発表等を通じた研究成果の公開にかかる経費として主に使用する計画である．

研究成果
(3件)

すべて 2017 2016

すべて学会発表 (3件)

[学会発表] 悪口投稿検出におけるソーシャルテキストの特性を考慮した仮想教師事例作成2017
- 著者名/発表者名
  河原裕樹, 乾孝司
- 学会等名
  電子情報通信学会思考と言語研究会
- 発表場所
  名古屋国際センター（愛知県名古屋市）
- 年月日
  2017-03-21
[学会発表] 人物・組織エンティティに対する固有表現抽出課題の難易度評価2017
- 著者名/発表者名
  仲野友規, 乾孝司
- 学会等名
  言語処理学会第23回年次大会
- 発表場所
  筑波大学（茨城県つくば市）
- 年月日
  2017-03-14
[学会発表] SVMを用いた誹謗中傷・悪口投稿からの被害者表現の自動抽出2016
- 著者名/発表者名
  仲野友規, 河原裕樹, 乾孝司
- 学会等名
  電子情報通信学会思考と言語研究会
- 発表場所
  小樽商科大学（北海道小樽市）
- 年月日
  2016-06-04