2015 Fiscal Year Research-status Report

言語表現の使用実態を踏まえたソーシャルメディア上の誹謗中傷行為の検出に関する研究

Research Project

Project/Area Number	15K20884
Research Institution	University of Tsukuba
Principal Investigator	乾孝司筑波大学, システム情報系, 准教授 (60397031)
Project Period (FY)	2015-04-01 – 2018-03-31
Keywords	有害情報 / 誹謗中傷 / ソーシャルメディア / 自然言語処理
Outline of Annual Research Achievements	本研究課題は，ソーシャルメディア上に流れる誹謗中傷行為の高精度な自動検出技術を開発することを目的とする．平成27年度は，インターネット上の実投稿テキストデータ約3,000投稿を対象として，誹謗中傷行為に使用される言語表現の実態調査および，その結果に基づいた誹謗中傷検出モデルのプロトタイプを開発した．言語表現の使用実態調査では，アノテーションガイドラインを作成後，アノテーターが誹謗中傷行為に関わる言語表現についてのタグ付与作業を実施した．タグ付与作業の主な項目は以下の通りである．(1)誹謗中傷表現，(2)被害者（人物）表現，(3)上記のテキスト上での相対位置，(4)上記の品詞種別，(5)(2)がもつ格情報など．なお，格情報については，表層格と深層格を区別し，深層格については述語項構造解析の先行研究を参考に数種類のタイプを定義して作業に用いた．上記の調査結果を踏まえ，SVMに基づく誹謗中傷検出モデルのプロトタイプを開発した．本プロトタイプは今後の技術開発過程における基盤環境となるものである．プロトタイプでは，一般的な単語ユニグラム素性を採用しているが，モデル開発の足掛かりとして，被害者情報が特別に組み込まれており，被害者の種別に応じて複数ある検出モデルから適切なモデルが自動選択される機構をもつ．予備実験の結果，被害者の種別に注目したモデル選択機構が検出性能の向上に貢献することを確認した．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 平成27年度は，インターネット上の実投稿テキストデータを対象として，誹謗中傷行為に使用される言語表現の実態調査および，その結果に基づいた誹謗中傷検出モデルのプロトタイプ開発をおこなう計画であったが，以下の通り，概ね計画通り進行している．言語表現の使用実態調査では，誹謗中傷表現は動態述語でなく状態述語としてあらわれ，特に形容詞，形容動詞が多いこと，被害者表現は名詞として出現する傾向が強く，特に一般名詞，固有名詞，代名詞が多いことを確認した．また，加害者については投稿IDを除けば投稿内であらわれることは稀であることを確認した．誹謗中傷表現と被害者表現の相対的な位置関係については，被害者表現でない名詞とのあいだの平均単語数は13.2であるが，被害者表現とのあいだの平均単語数は6.54 であり，誹謗中傷表現と被害者表現は投稿内で相対的に近い位置に現れることを確認した．また，被害者表現がもつ格関連情報については，被害者表現は後続する助詞が省略されやすいこと，省略されない場合は助詞「は」およびそれの話し言葉調で崩れた形である「って」となる傾向があることを確認した．上記の調査結果を踏まえ，SVMに基づく誹謗中傷検出モデルのプロトタイプを開発した．本プロトタイプは今後の技術開発過程における基盤環境となるものである．プロトタイプでは，一般的な単語ユニグラム素性を採用しているが，モデル開発の足掛かりとして被害者情報が特別に組み込まれており，被害者の種別に応じて複数ある検出モデルから適切なモデルが自動選択される機構をもつ．モデル選択は被害者種別クラスに基いておこなわれる．本手法を実装した予備実験の結果，被害者の種別に注目したモデル選択機構が検出性能の向上に貢献することを確認した．
Strategy for Future Research Activity	これまでの開発状況を踏まえ，平成28年度以降は，次の項目に取り組む計画である．（１）言語表現の使用実態調査を継続しておこなう．今回，比較的誹謗中傷行為が多く含まれるデータ群を対象に調査をおこなったが，当該行為の発生は全事例の１割前後であった．これまで得られた知見の定量的信頼性を確保するため，実態調査を継続的に進める．（２）プロトタイプを発展させ，誹謗中傷検出モデルを精緻化する．プロトタイプでは，言語表現の使用実態調査の調査項目のうち被害者情報に絞って特徴量を検討をしたが，その他の項目についても特徴量の設計を検討する．また，使用実態調査の結果から誹謗中傷行為の典型的記述型を求め，プロトタイプモデルの誤り分析を実施したところ，典型的な記述から外れるほど検出に誤る傾向があることがわかった．この点を中心に検出モデルを改良する．現在のところ，典型的記述型から事例の典型度を求め，この値に従って擬似事例を生成させることを通して現モデルを改良する計画である．（３）被害者情報を適切にモデルに組み込むためには精度よく被害者情報を自動取得する必要がある．そこで，上記と並行して，ソーシャルメディア上の誹謗中傷行為における被害者の情報を自動取得する方法論を検討・開発する計画である．この際，誹謗中傷表現に近接する人物表現が被害者となりやすい知見を既に得ていることから，投稿中の人物表現の自動抽出技術に焦点を当てて開発を進める．
Causes of Carryover	誹謗中傷行為をあらわす言語表現の使用実態調査において，調査項目の調整を含めた継続調査をおこなう予定である．このうち調整分の実態調査にかかる作業が次年度にかかるため，未使用額が生じた．
Expenditure Plan for Carryover Budget	未使用額は，誹謗中傷行為をあらわす言語表現の使用実態調査において，調査項目の調整を含めた継続調査をおこなうための経費に使用する予定である．この経費を用いて調整分の実態調査をおこなう．調査の骨格は前年度同様であるが，前年度に得られた使用実態に則して調査項目の追加，修正をおこなう．

Research Products
(1 results)

All Presentation (1 results)

[Presentation] 被害者種別を考慮したソーシャルテキストからの悪口検出2015
- Author(s)
  河原裕樹, 乾孝司, 山本幹雄
- Organizer
  電子情報通信学会思考と言語研究会（TL2015-12）, pp.67--72
- Place of Presentation
  徳島大学（徳島県徳島市）
- Year and Date
  2015-06-04 – 2015-06-05