研究課題/領域番号 |
24600001
|
研究機関 | 北見工業大学 |
研究代表者 |
桝井 文人 北見工業大学, 工学部, 准教授 (80324549)
|
研究分担者 |
RZEPKA Rafal 北海道大学, 情報科学研究科, 助教 (80396316)
木村 泰知 小樽商科大学, 商学部, 准教授 (50400073)
プタシンスキ ミハウ 北見工業大学, 工学部, 助教 (60711504)
|
キーワード | 有害情報抽出 / 世評情報 / 学校非公式サイト / ブログデータ / 感情情報 / 倫理情報 |
研究概要 |
本研究では,ネットパトロール活動による監視担当者にかかる負荷を軽減することを目的として,学校非公式サイトに書き込まれた有害表現を効率良く検出する技術の開発に取り組む. 今年度は,(1)学校非公式サイトおよび(2)インターネット掲示板における有害表現の調査と有害表現コーパスの構築,(3)有害表現と連関する世評表現,感情情報,倫理判断の調査を実施した. (1),(2)については,国内の中学,高校,大学に関連する非公式サイトのデータを独自に収集した他,北海道庁の協力を経て道内の高校非公式サイトの書き込みデータの利用許諾を得た.独自収集したデータには人手による有害/無害の判定と表現の正規化を実施し,1,500文の評価用非公式サイトデータを作成した.また,SNSの書き込みデータも対象として,特定トピックに関するデータ収集にも着手した. (3)については,収集したブログおよび学校非公式サイトに含まれる感情表現の出現傾向の調査を行い,有害表現と感情表現の関連性の分析を進めたが,有害表現と感情表現には有意な相関がないことがわかった.この結果を受けて,予定していた感情情報に基づく有害極性判定メソッドの実装は行わないこととした.同様に,学校非公式サイトの書き込みを対象として倫理判断情報の調査を開始した.また,世評を考慮に入れた有害極性判定メソッドの改良も進めた.本研究成果は複数の国内・国際会議にて発表した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
今年度は,前年度見送ったインターネット情報書き込みデータの収集とそれらに含まれる有害表現に関する詳細な調査と,感情情報に基づく有害局性判定メソッドの設計・実装に取り組んだ. 前者については,国内の中学,高校,大学に関連する非公式サイトのデータを独自に収集した他,北海道庁の協力を経て道内の高校非公式サイトの書き込みデータの利用許諾を得た.独自収集したデータには人手による有害/無害の判定と表現の正規化を実施し,1,500文の評価用非公式サイトデータを作成した. 後者については,上記評価データを対象として,これらに含まれる感情表現の出現傾向の調査を行い,有害表現と感情表現の関連性を分析した.その結果,有害表現と感情表現には有意な相関がないことがわかった.この結果を受けて,予定していた感情情報に基づく有害極性判定メソッドの実装は行わないこととした.
|
今後の研究の推進方策 |
今後の研究推進については,以下のように予定している. (1)インターネットにおける有害表現の調査:今回利用許諾を得た道内学校非公式サイトのデータを分析することで有害種単語および極性判定モデルの精緻化に資する知見を見出す.また,引き続きブログおよびSNSに記述される書き込みの収集にも努める.この作業は,木村と桝井,Ptaszynskiが中心となって進める. (2)有害表現と連関する世評表現,倫理判断の調査:上記で得られるコーパスを利用して有害表現と連関する世評表現,倫理判断についての知見を得る.有害表現と倫理判断の関係性について考察する.この作業は,木村と桝井,Rzepkaが中心となって進める. (3)倫理判断に基づく有害極性メソッドの設計と実装:書き込みデータ中に出現する倫理関係の調査を継続しつつ,倫理判断に基づく有害極性判定メソッドの設計と実装を行う.本メソッドはGENTAプロジェクトの常識解析エンジンを応用して構築する.この作業はRzepkaとPtaszynskiが主となって遂行する.
|
次年度の研究費の使用計画 |
消耗品購入にあたり当初の見積りよりも安価に購入することになったため,若干の剰余が生じた. 次年度の消耗品費に充当し,予算の有効執行に努める.
|