研究概要 |
1.多属性感性情報による「不自然さ(有害度)」の文脈解析による決定法の確立が平成22年度から23年度まで継続しており、以下の形式的な判定手法を提案して、実験評価を実施した。 文脈解析による文書dの定量的有害度をξ(d)=α(x,d)+β(y,z)+γ(F(d))+δ(N(d))とする。 (1)α(x):dに含まれるn個の有害語xによる語彙有害度 (2)β(y,z):dに含まれる意味共起(y,z)による感性有害度 (3)γ(F(d)):dに含まれる連想語から判定した話題集合F(d)による話題有害度 (4)δ(N(d)):dに含まれる固有実体表現集合N(d)から決定した実体有害度 有害度(説明上の仮値)は、曖昧な語彙有害度α(x)に対して、前述した1.内の例1Aはすべてに「不自然さ」を検出できるので、β(y,z)、γ(F(d))、δ(N(d))を高くした。逆に、例1Bでは、常識的で自然な共起「美しい+クリスタル」、焦点ぼけしない明確な話題<製品販売>、企業や連絡先の実体の存在(仮定)により、それぞれの有害度を低くした。よって、文書全体の定量的有害度ξ(d)により、例1Aが例1Bより有害度が高いと判定する。感性有害度β(y,z)は意味共起の有害度、共起に対する感性情報([気分][実行告知]など)の有害度の積と仮定した。 2.上記1の手法と申請書の研究計画に沿って、「不自然さ」感性情報による有害情報の検出手法の研究を推進した。研究手法のコンセプトは、「不自然さ」を判定するために、常識的な「自然さ」を意味する言語情報を構築することであり、以下を実施した。 (1)現在までに、人間が「自然」と感じる常識的な情報として、企業名3万、場所30万、電話10万、メールアドレスドメイン5万の抽出照合を研究してきており、そのうち、場所情報は変化が少なく、また電話やメールアドレスは、表層的な記述書式で照合が可能であるが、確信度の高いWEB情報からの意味共起情報を抽出した。 (2)研究計画にある常識的な知識としては、分野(話題)判定辞書が必要であるが、WEB情報では新しい造語が頻繁に作成されるので、自動抽出モジュールの研究開発と抽出結果を可視化するための初期実験を推進した。この可視化は、平成24年にも継続される。 (3)有害情報はブログなどの掲示板に多く出現し、話し言葉の口語調で記述される場合が多く、口語調の常識的な表現情報を抽出した。 (4)大規模情報の検索システムにおいては、既に大規模分散解析装置に実験用コーパスを検索構築する基盤開発は、.Solr検索エンジンを活用して終了しており、試験で使用する多種多彩なWEB情報の収集と構築の準備を準備した。実際のデータでの検索支援モジュールの試験評価が平成24年度の課題となる。
|