2011 年度実績報告書

人間が感じる「不自然さ」感性の多属性文脈解析法とWeb有害情報判定への応用

研究課題

研究課題/領域番号	22240020
研究機関	徳島大学
研究代表者	青江順一徳島大学, 大学院・ソシオテクノサイエンス研究部, 教授 (90108853)
研究分担者	泓田正雄徳島大学, 大学院・ソシオテクノサイエンス研究部, 准教授 (10304552) 森田和宏徳島大学, 大学院・ソシオテクノサイエンス研究部, 講師 (20325252)
キーワード	感性情報処理 / 文脈感性情報 / 有害情報フィルタリング
研究概要	1.多属性感性情報による「不自然さ(有害度)」の文脈解析による決定法の確立が平成22年度から23年度まで継続しており、以下の形式的な判定手法を提案して、実験評価を実施した。文脈解析による文書dの定量的有害度をξ(d)=α(x,d)+β(y,z)+γ(F(d))+δ(N(d))とする。 (1)α(x):dに含まれるn個の有害語xによる語彙有害度 (2)β(y,z):dに含まれる意味共起(y,z)による感性有害度 (3)γ(F(d)):dに含まれる連想語から判定した話題集合F(d)による話題有害度 (4)δ(N(d)):dに含まれる固有実体表現集合N(d)から決定した実体有害度有害度(説明上の仮値)は、曖昧な語彙有害度α(x)に対して、前述した1.内の例1Aはすべてに「不自然さ」を検出できるので、β(y,z)、γ(F(d))、δ(N(d))を高くした。逆に、例1Bでは、常識的で自然な共起「美しい+クリスタル」、焦点ぼけしない明確な話題<製品販売>、企業や連絡先の実体の存在(仮定)により、それぞれの有害度を低くした。よって、文書全体の定量的有害度ξ(d)により、例1Aが例1Bより有害度が高いと判定する。感性有害度β(y,z)は意味共起の有害度、共起に対する感性情報([気分][実行告知]など)の有害度の積と仮定した。 2.上記1の手法と申請書の研究計画に沿って、「不自然さ」感性情報による有害情報の検出手法の研究を推進した。研究手法のコンセプトは、「不自然さ」を判定するために、常識的な「自然さ」を意味する言語情報を構築することであり、以下を実施した。 (1)現在までに、人間が「自然」と感じる常識的な情報として、企業名3万、場所30万、電話10万、メールアドレスドメイン5万の抽出照合を研究してきており、そのうち、場所情報は変化が少なく、また電話やメールアドレスは、表層的な記述書式で照合が可能であるが、確信度の高いWEB情報からの意味共起情報を抽出した。 (2)研究計画にある常識的な知識としては、分野(話題)判定辞書が必要であるが、WEB情報では新しい造語が頻繁に作成されるので、自動抽出モジュールの研究開発と抽出結果を可視化するための初期実験を推進した。この可視化は、平成24年にも継続される。 (3)有害情報はブログなどの掲示板に多く出現し、話し言葉の口語調で記述される場合が多く、口語調の常識的な表現情報を抽出した。 (4)大規模情報の検索システムにおいては、既に大規模分散解析装置に実験用コーパスを検索構築する基盤開発は、.Solr検索エンジンを活用して終了しており、試験で使用する多種多彩なWEB情報の収集と構築の準備を準備した。実際のデータでの検索支援モジュールの試験評価が平成24年度の課題となる。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由最も難しい課題である、不自然さの判定を行うための「自然さ」の意味共起データの構築の自動化が実現されたことで、テキストコーパスを収集から、自然な表現の判定知識構築と有害度判定の基盤が整った。また、Solr検索エンジンも稼働確認ができ、分野分類の判定も実行できているので、計画以上に進展しているわけではないが、おおむね順調である。
今後の研究の推進方策	次年度からは、有害情報を判定抽出する多属性規則の構築を進める必要があり、このための規則構築の可視化モジュールとそれらを使用した抽出規則を拡充する計画である。大規模分散解析装置でのクロールと解析については、バッチ処理を採用し、検索処理は実時間処理で実験評価を行う。この結果において、問題点があれば、平成25年度に対策を講じる予定であるので、平成24年度は計画通り推進する。

研究成果
(3件)

すべて 2011

すべて雑誌論文 (3件) (うち査読あり 3件)

[雑誌論文] A method of extracting malicious expressions in bulletin board systems by using context analysis2011
- 著者名/発表者名
  Hiroshi Hanafusa
- 雑誌名
  
  Journal of Information Processing & Management
  
  巻: 47 ページ: 323-335
- 査読あり
[雑誌論文] Context Constraint Disambiguation of Word Semantics by Field Association Schemes2011
- 著者名/発表者名
  Li Wang
- 雑誌名
  
  Journal of Information Processing & Management
  
  巻: 47 ページ: 560-574
- 査読あり
[雑誌論文] A fast search method of similar strings from dictionaries2011
- 著者名/発表者名
  Masao Fuketa
- 雑誌名
  
  International Journal of Computer Application in Technology
  
  巻: 40 ページ: 265-272
- 査読あり

2011 年度 実績報告書

人間が感じる「不自然さ」感性の多属性文脈解析法とWeb有害情報判定への応用

研究代表者

青江 順一 徳島大学, 大学院・ソシオテクノサイエンス研究部, 教授 (90108853)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] A method of extracting malicious expressions in bulletin board systems by using context analysis2011

著者名/発表者名

雑誌名

[雑誌論文] Context Constraint Disambiguation of Word Semantics by Field Association Schemes2011

著者名/発表者名

雑誌名

[雑誌論文] A fast search method of similar strings from dictionaries2011

著者名/発表者名

雑誌名

2011 年度実績報告書

青江順一徳島大学, 大学院・ソシオテクノサイエンス研究部, 教授 (90108853)