2011 Fiscal Year Annual Research Report
人間が感じる「不自然さ」感性の多属性文脈解析法とWeb有害情報判定への応用
Project/Area Number |
22240020
|
Research Institution | The University of Tokushima |
Principal Investigator |
青江 順一 徳島大学, 大学院・ソシオテクノサイエンス研究部, 教授 (90108853)
|
Co-Investigator(Kenkyū-buntansha) |
泓田 正雄 徳島大学, 大学院・ソシオテクノサイエンス研究部, 准教授 (10304552)
森田 和宏 徳島大学, 大学院・ソシオテクノサイエンス研究部, 講師 (20325252)
|
Keywords | 感性情報処理 / 文脈感性情報 / 有害情報フィルタリング |
Research Abstract |
1.多属性感性情報による「不自然さ(有害度)」の文脈解析による決定法の確立が平成22年度から23年度まで継続しており、以下の形式的な判定手法を提案して、実験評価を実施した。 文脈解析による文書dの定量的有害度をξ(d)=α(x,d)+β(y,z)+γ(F(d))+δ(N(d))とする。 (1)α(x):dに含まれるn個の有害語xによる語彙有害度 (2)β(y,z):dに含まれる意味共起(y,z)による感性有害度 (3)γ(F(d)):dに含まれる連想語から判定した話題集合F(d)による話題有害度 (4)δ(N(d)):dに含まれる固有実体表現集合N(d)から決定した実体有害度 有害度(説明上の仮値)は、曖昧な語彙有害度α(x)に対して、前述した1.内の例1Aはすべてに「不自然さ」を検出できるので、β(y,z)、γ(F(d))、δ(N(d))を高くした。逆に、例1Bでは、常識的で自然な共起「美しい+クリスタル」、焦点ぼけしない明確な話題<製品販売>、企業や連絡先の実体の存在(仮定)により、それぞれの有害度を低くした。よって、文書全体の定量的有害度ξ(d)により、例1Aが例1Bより有害度が高いと判定する。感性有害度β(y,z)は意味共起の有害度、共起に対する感性情報([気分][実行告知]など)の有害度の積と仮定した。 2.上記1の手法と申請書の研究計画に沿って、「不自然さ」感性情報による有害情報の検出手法の研究を推進した。研究手法のコンセプトは、「不自然さ」を判定するために、常識的な「自然さ」を意味する言語情報を構築することであり、以下を実施した。 (1)現在までに、人間が「自然」と感じる常識的な情報として、企業名3万、場所30万、電話10万、メールアドレスドメイン5万の抽出照合を研究してきており、そのうち、場所情報は変化が少なく、また電話やメールアドレスは、表層的な記述書式で照合が可能であるが、確信度の高いWEB情報からの意味共起情報を抽出した。 (2)研究計画にある常識的な知識としては、分野(話題)判定辞書が必要であるが、WEB情報では新しい造語が頻繁に作成されるので、自動抽出モジュールの研究開発と抽出結果を可視化するための初期実験を推進した。この可視化は、平成24年にも継続される。 (3)有害情報はブログなどの掲示板に多く出現し、話し言葉の口語調で記述される場合が多く、口語調の常識的な表現情報を抽出した。 (4)大規模情報の検索システムにおいては、既に大規模分散解析装置に実験用コーパスを検索構築する基盤開発は、.Solr検索エンジンを活用して終了しており、試験で使用する多種多彩なWEB情報の収集と構築の準備を準備した。実際のデータでの検索支援モジュールの試験評価が平成24年度の課題となる。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
最も難しい課題である、不自然さの判定を行うための「自然さ」の意味共起データの構築の自動化が実現されたことで、テキストコーパスを収集から、自然な表現の判定知識構築と有害度判定の基盤が整った。また、Solr検索エンジンも稼働確認ができ、分野分類の判定も実行できているので、計画以上に進展しているわけではないが、おおむね順調である。
|
Strategy for Future Research Activity |
次年度からは、有害情報を判定抽出する多属性規則の構築を進める必要があり、このための規則構築の可視化モジュールとそれらを使用した抽出規則を拡充する計画である。大規模分散解析装置でのクロールと解析については、バッチ処理を採用し、検索処理は実時間処理で実験評価を行う。この結果において、問題点があれば、平成25年度に対策を講じる予定であるので、平成24年度は計画通り推進する。
|
Research Products
(3 results)