2016 Fiscal Year Research-status Report
言語表現の使用実態を踏まえたソーシャルメディア上の誹謗中傷行為の検出に関する研究
Project/Area Number |
15K20884
|
Research Institution | University of Tsukuba |
Principal Investigator |
乾 孝司 筑波大学, システム情報系, 准教授 (60397031)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 有害情報 / 誹謗中傷 / ソーシャルメディア / 自然言語処理 / 仮想教師事例 |
Outline of Annual Research Achievements |
本研究課題は,ソーシャルメディア上に流れる誹謗中傷行為の高精度な自動検出技術を開発することを目的とする. 平成28年度は,昨年度に引き続き,インターネット上の実投稿テキストデータを対象として誹謗中傷行為に使用される言語表現の実態調査をおこなった.また,実態調査の結果に基づき,昨年度開発した誹謗中傷検出モデルのプロトタイプを改良した. 言語表現の使用実態調査では,昨年度に加え新たに2,100投稿のテキストデータを対象として誹謗中傷行為に使用される言語表現の実態調査をおこなった.この結果,誹謗中傷の検出に有効な言語表現は投稿内の限られた一部の箇所にのみ出現する傾向があることがわかった. 上記の調査結果を踏まえ,誹謗中傷検出モデルのプロトタイプを改良した.具体的には,検出モデルの構築時に利用する教師事例の不足を補うために仮想教師事例を自動生成するが,その際に,既存手法に対して上記の出現傾向を考慮した手法(事例プール法および単語に関する出現分布法)を提案し,モデル構築をおこない,その有効性を検証した.さらに,誹謗中傷行為を受けている被害者情報を自動取得する足がかりとして,投稿内から人物(および組織)表現を自動抽出する方法論に対する現状の問題点について,固有表現の要素となる割合および固有表現の要素となる場合のその固有表現の異なり度合いに基づいて言語表現毎に抽出難易度を測定し,人物表現自動抽出手法の性能と抽出難易度の関係性を調べた.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成28年度は,インターネット上の実投稿テキストデータを対象として誹謗中傷行為に使用される言語表現の実態調査をおこない,また,その結果に基づいて誹謗中傷検出モデルのプロトタイプを改良する計画であったが,以下の通り,概ね計画通り進行している. 言語表現の使用実態調査では,今年度新たに2,100投稿のテキストデータを調査対象に追加し,継続調査を実施した.その結果,検出モデルの改良に繋がる幾つかの知見を得た.例えば,誹謗中傷検出モデルの構築にとって有効な言語表現は投稿内の限られた一部の箇所にのみ限定的に出現する傾向があることがわかった. 上記の知見にもとに,誹謗中傷検出モデルのプロトタイプを改良した.プロトタイプでは,検出モデルの構築時に利用する教師事例の不足を補うために仮想教師事例を自動生成する.この自動生成の既存研究では仮想教師事例を生成する際に文章(本研究では投稿テキスト)中の一部分を編集する(単語を追加,削除する)操作をおこなうが,上記で述べた知見を考慮しないため誹謗中傷行為に直接関与する単語も編集してしまう致命的な問題があった.この問題に対して,事例プール法および単語に関する出現分布法という2つの手法を提案し,モデルの改良を検討した.評価実験を通した検証した結果,多くの実験設定において提案手法が有効であることを確認した. さらに,誹謗中傷行為を受けている被害者情報を自動取得する足がかりとして,投稿内から人物(および組織)表現を自動抽出する方法に対する現状の問題点を検討した.具体的には,固有表現の要素となる割合および固有表現の要素となる場合のその固有表現の異なり度合いに基づいて言語表現毎に抽出難易度を測定した.その結果,抽出難易度と抽出性能に相関関係が認められること,抽出難易度の高い事例は表現自体が短く,その原因として省略表現が多用されていること等が明らかになった.
|
Strategy for Future Research Activity |
これまでの状況を踏まえ,平成29年度は次の項目に取り組む計画である. (1)今年度の検討から得られた知見に基づいて,ソーシャルメディア上の誹謗中傷行為における被害者の情報を自動取得する手法を開発する.これによって,誹謗中傷検出モデルのさらなる改良を検討する.現在,条件付確率場に基づく人物表現抽出手法の実装を終えており,この手法をベースにして投稿中の被害者の情報を自動取得する手法を開発する. (2)これまでの各工程を統合することで,言語表現の使用実態に即した誹謗中傷検出モデルの総合的な評価を実施する.
|
Causes of Carryover |
主に,スケジュールの都合で学会への参加回数が予定回数よりも少なくなり学会参加にかかる経費分について次年度使用額が生じた.
|
Expenditure Plan for Carryover Budget |
今年度未使用額および翌年度の助成金については,モデル開発経費,学会発表等を通じた研究成果の公開にかかる経費として主に使用する計画である.
|
Research Products
(3 results)