• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2011 年度 実績報告書

人間が感じる「不自然さ」感性の多属性文脈解析法とWeb有害情報判定への応用

研究課題

研究課題/領域番号 22240020
研究機関徳島大学

研究代表者

青江 順一  徳島大学, 大学院・ソシオテクノサイエンス研究部, 教授 (90108853)

研究分担者 泓田 正雄  徳島大学, 大学院・ソシオテクノサイエンス研究部, 准教授 (10304552)
森田 和宏  徳島大学, 大学院・ソシオテクノサイエンス研究部, 講師 (20325252)
キーワード感性情報処理 / 文脈感性情報 / 有害情報フィルタリング
研究概要

1.多属性感性情報による「不自然さ(有害度)」の文脈解析による決定法の確立が平成22年度から23年度まで継続しており、以下の形式的な判定手法を提案して、実験評価を実施した。
文脈解析による文書dの定量的有害度をξ(d)=α(x,d)+β(y,z)+γ(F(d))+δ(N(d))とする。
(1)α(x):dに含まれるn個の有害語xによる語彙有害度
(2)β(y,z):dに含まれる意味共起(y,z)による感性有害度
(3)γ(F(d)):dに含まれる連想語から判定した話題集合F(d)による話題有害度
(4)δ(N(d)):dに含まれる固有実体表現集合N(d)から決定した実体有害度
有害度(説明上の仮値)は、曖昧な語彙有害度α(x)に対して、前述した1.内の例1Aはすべてに「不自然さ」を検出できるので、β(y,z)、γ(F(d))、δ(N(d))を高くした。逆に、例1Bでは、常識的で自然な共起「美しい+クリスタル」、焦点ぼけしない明確な話題<製品販売>、企業や連絡先の実体の存在(仮定)により、それぞれの有害度を低くした。よって、文書全体の定量的有害度ξ(d)により、例1Aが例1Bより有害度が高いと判定する。感性有害度β(y,z)は意味共起の有害度、共起に対する感性情報([気分][実行告知]など)の有害度の積と仮定した。
2.上記1の手法と申請書の研究計画に沿って、「不自然さ」感性情報による有害情報の検出手法の研究を推進した。研究手法のコンセプトは、「不自然さ」を判定するために、常識的な「自然さ」を意味する言語情報を構築することであり、以下を実施した。
(1)現在までに、人間が「自然」と感じる常識的な情報として、企業名3万、場所30万、電話10万、メールアドレスドメイン5万の抽出照合を研究してきており、そのうち、場所情報は変化が少なく、また電話やメールアドレスは、表層的な記述書式で照合が可能であるが、確信度の高いWEB情報からの意味共起情報を抽出した。
(2)研究計画にある常識的な知識としては、分野(話題)判定辞書が必要であるが、WEB情報では新しい造語が頻繁に作成されるので、自動抽出モジュールの研究開発と抽出結果を可視化するための初期実験を推進した。この可視化は、平成24年にも継続される。
(3)有害情報はブログなどの掲示板に多く出現し、話し言葉の口語調で記述される場合が多く、口語調の常識的な表現情報を抽出した。
(4)大規模情報の検索システムにおいては、既に大規模分散解析装置に実験用コーパスを検索構築する基盤開発は、.Solr検索エンジンを活用して終了しており、試験で使用する多種多彩なWEB情報の収集と構築の準備を準備した。実際のデータでの検索支援モジュールの試験評価が平成24年度の課題となる。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

最も難しい課題である、不自然さの判定を行うための「自然さ」の意味共起データの構築の自動化が実現されたことで、テキストコーパスを収集から、自然な表現の判定知識構築と有害度判定の基盤が整った。また、Solr検索エンジンも稼働確認ができ、分野分類の判定も実行できているので、計画以上に進展しているわけではないが、おおむね順調である。

今後の研究の推進方策

次年度からは、有害情報を判定抽出する多属性規則の構築を進める必要があり、このための規則構築の可視化モジュールとそれらを使用した抽出規則を拡充する計画である。大規模分散解析装置でのクロールと解析については、バッチ処理を採用し、検索処理は実時間処理で実験評価を行う。この結果において、問題点があれば、平成25年度に対策を講じる予定であるので、平成24年度は計画通り推進する。

  • 研究成果

    (3件)

すべて 2011

すべて 雑誌論文 (3件) (うち査読あり 3件)

  • [雑誌論文] A method of extracting malicious expressions in bulletin board systems by using context analysis2011

    • 著者名/発表者名
      Hiroshi Hanafusa
    • 雑誌名

      Journal of Information Processing & Management

      巻: 47 ページ: 323-335

    • 査読あり
  • [雑誌論文] Context Constraint Disambiguation of Word Semantics by Field Association Schemes2011

    • 著者名/発表者名
      Li Wang
    • 雑誌名

      Journal of Information Processing & Management

      巻: 47 ページ: 560-574

    • 査読あり
  • [雑誌論文] A fast search method of similar strings from dictionaries2011

    • 著者名/発表者名
      Masao Fuketa
    • 雑誌名

      International Journal of Computer Application in Technology

      巻: 40 ページ: 265-272

    • 査読あり

URL: 

公開日: 2013-06-26  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi