研究課題
本研究課題は、人間が感じる「不自然さと自然さ」に対する感性表現、話題、企業、地名などから構成される多属性情報による文脈解析を提案する。そして、この手法をWEB情報の有害と非有害な情報に弁別する手法に応用する。この目的に沿って、平成25年度では、平成22年度から24年度に引き継いで、以下の研究を実施した。1.感性表現は平成24年度までの研究実施を活用し、企業名、場所、電話、メールアドレスの照合を課題とした。この中で、企業名と場所は解析エンジンの辞書で判定でき、電話とメールアドレスは照合規則で抽出できるが、未知の企業名の実存性が判定できない課題が残った。企業名は麻薬販売などの擬似情報として利用されるために、実体が存在するかどうかが重要である。従って、WEB情報より企業の実存性を判定する手法を提案し、評価を行った。2.WEB上の有害情報は、ツイッター、掲示板、QAサイトなどで広がるので、この口コミ情報の判定手法を提案した。提案手法では、ニュースや商品紹介情報の除外、重複情報の併合、感性情報(形容詞、一般動詞の出現情報を含む)で選別した。この手法により、ツイッターでは約10%まで絞り込みできた。また、QAデータでは5種類の分類提案を行い、実験により80%以上の分類精度になることを確認した。3.大規模情報の検索システムにおいては、大規模分散解析装置によるSolr検索エンジンを活用し、上記ツイッターなどの大規模収集の実験WEBデータ(研究目標である1億文)をとりまとめた。4.以上の提案手法とともに、4年間の研究成果として、WEB情報の有害情報(誹謗中傷、違法情報、殺人・ストーカー情報など)の検出知識(概念規則)をとりまとめた。
25年度が最終年度であるため、記入しない。
すべて 2013
すべて 雑誌論文 (3件) (うち査読あり 3件) 学会発表 (1件)
International Journal of Computer Applications in Technology
巻: Vol.48, No.2 ページ: 130-135
10.1504/IJCAT.2013.056019
巻: Vol.48, No.2 ページ: 120-129
10.1504/IJCAT.2013.056018
International Journal of Intelligent Systems Technologies and Applications
巻: Vol.12, No.3/4 ページ: 316-327
10.1504/IJISTA.2013.056541