2012 Fiscal Year Research-status Report
世評・感情・倫理を考慮して柔軟に有害表現を検出する技術の開発とその応用
Project/Area Number |
24600001
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Kitami Institute of Technology |
Principal Investigator |
桝井 文人 北見工業大学, 工学部, 准教授 (80324549)
|
Co-Investigator(Kenkyū-buntansha) |
RZEPKA Rafal 北海道大学, 情報科学研究科, 助教 (80396316)
木村 泰知 小樽商科大学, 商学部, 准教授 (50400073)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | 有害情報検出 / 世評情報 / 学校非公式サイト / ブログデータ |
Research Abstract |
本研究では,ネットパトロール活動による監視担当者にかかる負荷を軽減することを目的として,学校非公式サイトに書き込まれた有害表現を効率よく検出する技術の開発に取り組む. 今年度は,(1)学校非公式サイトおよび(2)インターネット掲示板における有害表現の調査有害表現コーパスの構築,(3)有害表現と連関する世評表現,感情情報,倫理判断の調査を進める計画であったが,一部計画を変更して上記(1)と(4)世評に基づく有害極性判定メソッドの設計と実装,に着手した. (2)については,インターネット上の学校非公式 サイトや掲示板上に記述される書き込みを収集し,有害表現について詳細に調査する予定であったが,十分な規模の書き込みデータが収集できなかったためにコーパス構築が完了には至らなかった.また,書き込み先が学校非公式サイトやインターネット掲示板といった場所からSNSやプロフサイトなどへと移行が進んだこともあり,収集対象とする書き込みデータをSNSやブログデータへ変更することとし,収集方法や収集手順を見直した. (1)および(3)については,上記研究計画変更に伴い,次年度実施する. (4)については,書き込みデータやWWW文書中に出現する世評を表す語 句や表現の調査を継続しつつ,調査結果に基づいて世評を考慮に入れた有害極性判定メソッドを設計・実装した.設計したメソッドは,評判情報抽出で用いられるPMI-IR(SO-IR)手法を応用した極性判定エンジンと,有害表現を三つのカテゴリに判別する分類モジュールから構成される.小規模な評価実験によって,このメソッドが少数の種単語を用いて多数の有害表現候補を検出可能であることを確認した.これをネットパトロールに適用することにより,人間が判断しなければならない書き込みデータ数の大幅な軽減が期待できる.本研究成果は次年度の国内・国際会議にて発表予定である.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
今年度は,インターネット上の学校非公式 サイトや掲示板上に記述される書き込みを収集し,有害表現について詳細に調査する予定であったが,不足の事態によって構築中のデータが消失したために十分な規模の書き込みデータが収集できず,予定完了には至らなかった.さらに,「ねっと上のいじめ」が発生する土壌となっていた書き込み先が学校非公式サイトやインターネット掲示板といった場所からSNSやプロフサイトなどへと移行が進んだこともあり,収集対象とする書き込みデータをSNSやブログデータへ変更し,収集方法や収集手順を見直した. これに伴い,(1)学校非公式サイトおよびインターネット掲示板における有害表現の調査および(3)有害表現と連関する世評表現,感情情報,倫理判断の調査について年度内遂行が困難となってしまった.そこで,これらの研究実施を次年度へ繰り越すこととし,代わりに(4)世評に基づく有害極性判定メソッドの設計と実装を進めた. 以上より,研究計画の(1)および(3)において研究の遅れが生じたが,(4)が予定より早く進展したことになる.研究計画変更に伴う不測の事態を考慮して研究はやや遅れていると判断した.
|
Strategy for Future Research Activity |
今後の研究推進については以下のように予定している. (1)インターネットにおける有害表現の調査:引き続きブログおよびSNSに記述される書き込みの収集を進めながら,人手による有害表現の調査(有害表現の範囲・種別・出現頻度・共起する語句など)の調査を行う.さらに,調査結果に基づいて有害表現の客観的定義を試みる.調査では統計学的考察を加えて有害表現の客観的定義に利用する.本活動は桝井が中心となり進める. (2)有害表現コーパスの構築(評価用基礎データの作成):引き続きデータ収集を実施し,蓄積データに対して有害表現の範囲,種別,判断基準などを示すタグ付けを行う.本活動は木村と桝井が中心となり進める. (3)有害表現と連関する世評表現,感情情報,倫理判断の調査:上記で得られるコーパスを利用して有害表現と連関する世評表現・感情表現・倫理判断についての知見を得る.世評が有害性判断に与える影響,有害表現に含まれる感情情報やそれと共起する感情情報の特性を分析する.本活動はRzepkaと桝井が中心となり進める. (4)感情情報に基づく有害極性判定メソッドの設計と実装:書き込みデータ中に出現する感情情報の調査を継続しつつ,感情情報に基づいた有害極性判定メソッドを設計・実装する.本メソッドはGENTAプロジェクトの感情解析エンジンを応用する.この作業はRzepkaが主となって進める. (5)倫理判断に基づく有害極性判定メソッドの設計と実装:書き込みデータ中に出現する倫理関係の調査を継続しつつ,倫理判断に基づいた有害極性判定メソッドを設計・実装する.本メソッドはGENTAプロジェクトの常識解析エンジンを応用する.この作業はRzepkaが主となって進める.
|
Expenditure Plans for the Next FY Research Funding |
次年度の研究費は以下のように使用する予定である. (1)今年度実施予定であった有害表現コーパスの構築を次年度に実施するため,これに伴いデータ収集作業およびコーパス構築の作業が発生する.この作業には北見工業大学の大学院生および学部生計10名程度を作業補助者として雇用する予定である.そこで,本年度コーパス構築作業への謝金として計上した研究費を繰り越して450,000円(1,000円/時×4時/日×10日×10人)を使用する.また,(2)あるいは(4)が不足すると予想されるため一部を(2)に充当する予定である. (2)世評情報・感情情報・倫理判断に基づく各有害極性判定メソッドの設計・実装においては,北見工業大学・北海道大学の大学院生および学部生数名を作業補助として雇用する予定であるため,謝金として200,000円(1,000円/時×2時/日×20日×5人)を新たに計上する. (3)収集したデータの保存と解析および構築した有害表現コーパスの利用のために用いる処理用計算機環境を確保するために設備費250,000円(高速処理計算機:150,000円,補助記憶装置:50,000円,周辺環境備品:50,000円)を新たに計上する. (4)研究打合せおよび成果発表に伴い,国内・海外への旅費が必要となる.そこで旅費として750,000円(35,000円/人×1人×2回,170,000円/人×2人×2回)を新たに計上する. (5)別刷り代等に適用するために100,000円をその他として新たに計上する.
|
Research Products
(2 results)