• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2011 Fiscal Year Annual Research Report

人間が感じる「不自然さ」感性の多属性文脈解析法とWeb有害情報判定への応用

Research Project

Project/Area Number 22240020
Research InstitutionThe University of Tokushima

Principal Investigator

青江 順一  徳島大学, 大学院・ソシオテクノサイエンス研究部, 教授 (90108853)

Co-Investigator(Kenkyū-buntansha) 泓田 正雄  徳島大学, 大学院・ソシオテクノサイエンス研究部, 准教授 (10304552)
森田 和宏  徳島大学, 大学院・ソシオテクノサイエンス研究部, 講師 (20325252)
Keywords感性情報処理 / 文脈感性情報 / 有害情報フィルタリング
Research Abstract

1.多属性感性情報による「不自然さ(有害度)」の文脈解析による決定法の確立が平成22年度から23年度まで継続しており、以下の形式的な判定手法を提案して、実験評価を実施した。
文脈解析による文書dの定量的有害度をξ(d)=α(x,d)+β(y,z)+γ(F(d))+δ(N(d))とする。
(1)α(x):dに含まれるn個の有害語xによる語彙有害度
(2)β(y,z):dに含まれる意味共起(y,z)による感性有害度
(3)γ(F(d)):dに含まれる連想語から判定した話題集合F(d)による話題有害度
(4)δ(N(d)):dに含まれる固有実体表現集合N(d)から決定した実体有害度
有害度(説明上の仮値)は、曖昧な語彙有害度α(x)に対して、前述した1.内の例1Aはすべてに「不自然さ」を検出できるので、β(y,z)、γ(F(d))、δ(N(d))を高くした。逆に、例1Bでは、常識的で自然な共起「美しい+クリスタル」、焦点ぼけしない明確な話題<製品販売>、企業や連絡先の実体の存在(仮定)により、それぞれの有害度を低くした。よって、文書全体の定量的有害度ξ(d)により、例1Aが例1Bより有害度が高いと判定する。感性有害度β(y,z)は意味共起の有害度、共起に対する感性情報([気分][実行告知]など)の有害度の積と仮定した。
2.上記1の手法と申請書の研究計画に沿って、「不自然さ」感性情報による有害情報の検出手法の研究を推進した。研究手法のコンセプトは、「不自然さ」を判定するために、常識的な「自然さ」を意味する言語情報を構築することであり、以下を実施した。
(1)現在までに、人間が「自然」と感じる常識的な情報として、企業名3万、場所30万、電話10万、メールアドレスドメイン5万の抽出照合を研究してきており、そのうち、場所情報は変化が少なく、また電話やメールアドレスは、表層的な記述書式で照合が可能であるが、確信度の高いWEB情報からの意味共起情報を抽出した。
(2)研究計画にある常識的な知識としては、分野(話題)判定辞書が必要であるが、WEB情報では新しい造語が頻繁に作成されるので、自動抽出モジュールの研究開発と抽出結果を可視化するための初期実験を推進した。この可視化は、平成24年にも継続される。
(3)有害情報はブログなどの掲示板に多く出現し、話し言葉の口語調で記述される場合が多く、口語調の常識的な表現情報を抽出した。
(4)大規模情報の検索システムにおいては、既に大規模分散解析装置に実験用コーパスを検索構築する基盤開発は、.Solr検索エンジンを活用して終了しており、試験で使用する多種多彩なWEB情報の収集と構築の準備を準備した。実際のデータでの検索支援モジュールの試験評価が平成24年度の課題となる。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

最も難しい課題である、不自然さの判定を行うための「自然さ」の意味共起データの構築の自動化が実現されたことで、テキストコーパスを収集から、自然な表現の判定知識構築と有害度判定の基盤が整った。また、Solr検索エンジンも稼働確認ができ、分野分類の判定も実行できているので、計画以上に進展しているわけではないが、おおむね順調である。

Strategy for Future Research Activity

次年度からは、有害情報を判定抽出する多属性規則の構築を進める必要があり、このための規則構築の可視化モジュールとそれらを使用した抽出規則を拡充する計画である。大規模分散解析装置でのクロールと解析については、バッチ処理を採用し、検索処理は実時間処理で実験評価を行う。この結果において、問題点があれば、平成25年度に対策を講じる予定であるので、平成24年度は計画通り推進する。

  • Research Products

    (3 results)

All 2011

All Journal Article (3 results) (of which Peer Reviewed: 3 results)

  • [Journal Article] A method of extracting malicious expressions in bulletin board systems by using context analysis2011

    • Author(s)
      Hiroshi Hanafusa
    • Journal Title

      Journal of Information Processing & Management

      Volume: 47 Pages: 323-335

    • Peer Reviewed
  • [Journal Article] Context Constraint Disambiguation of Word Semantics by Field Association Schemes2011

    • Author(s)
      Li Wang
    • Journal Title

      Journal of Information Processing & Management

      Volume: 47 Pages: 560-574

    • Peer Reviewed
  • [Journal Article] A fast search method of similar strings from dictionaries2011

    • Author(s)
      Masao Fuketa
    • Journal Title

      International Journal of Computer Application in Technology

      Volume: 40 Pages: 265-272

    • Peer Reviewed

URL: 

Published: 2013-06-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi