2012 Fiscal Year Annual Research Report
人間が感じる「不自然さ」感性の多属性文脈解析法とWeb有害情報判定への応用
Project/Area Number |
22240020
|
Research Institution | The University of Tokushima |
Principal Investigator |
青江 順一 徳島大学, ソシオテクノサイエンス研究部, 教授 (90108853)
|
Co-Investigator(Kenkyū-buntansha) |
泓田 正雄 徳島大学, ソシオテクノサイエンス研究部, 准教授 (10304552)
森田 和宏 徳島大学, ソシオテクノサイエンス研究部, 講師 (20325252)
|
Project Period (FY) |
2010-04-01 – 2014-03-31
|
Keywords | 感性情報処理 / 文脈感性情報 / 有害情報フィルタリング |
Research Abstract |
申請課題の研究計画に沿って、以下の通り、推進した。 (1)人間が「自然」と感じる常識的な固有情報として、計画目標に従って、企業・組織・商品名など約3万件、場所情報約30万件、電話約10万件の構築を行ったが、メールアドレスについては個人情報にも関係するので、組み合わせによる疑似データ10万件を構築した。これらのデータに対して、今後の評価用に、形態素解析の初版を試作した。 (2)常識的な知識として分野判定辞書が必要であるが、WEB情報では新しい造語が頻繁に作成されるので、自動抽出モジュールの試作を進めることで、まだ拡充は必要であるが、話題を判定できる基盤モジュールまで実施した。 (3)有害情報は掲示板に多く出現し、口語調で記述される場合が多くあるため、WEBに存在する有害と思われる情報の抽出を行い、同時に対話的な情報から常識的な記述情報を抽出するところまで実施した。 (4)大規模情報の検索システムは、実験用コーパスを検索構築するための活用は終了し、必要なキーワードに相当する試験文書を検索結果として、取得することは完了した。 以上の情報収集と分析の成果に沿って、最終年度である25年度は、提案手法の評価を引き続き推進する計画である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
最も難しい課題である、不自然さ判定を行うための「自然さ」の意味共起データ構築の自動化が実現されたことで、テキストコーパスから、自然な表現候補(頻度の高い共起関係)を抽出し、有害度判定の基盤が整った。 また、実際の有害情報に対する抽出方法も確立したので、目標は達成された。特に、確信度の高い常識的な固有情報として、計画目標に従って、企業・組織・商品名など約3万件、場所情報約30万件、電話約10万件、メールアドレス約10万件を構築できたことは、今後の有害度判定に有効利用できる。不自然な表現「**興業「実存しない企業名」:スピード(麻薬の隠語)を吸って」を判定するのに使うものである。具体的な有害情報の一次収集を終了している。 検索エンジンの稼働確認も終了し、また、大規模分散解析装置で使用できる基盤が整い、形態素解析や多属性照合エンジンなどの実行基盤も達成できているので、最終年度への準備として、計画以上に進展しているわけではないが、おおむね順調であると判断できる。
|
Strategy for Future Research Activity |
(1)人間が「自然」と感じる常識的な固有情報として、前年度までに、計画目標に従って、企業(組織・商品名など含む)約3万件、場所情報約30万件、電話約10万件、メールアドレスについては個人情報にも関係するので、組み合わせによる疑似データ10万件を構築し、照合処理を行った。最終年度は、この成果を踏まえ、形態素解析を実施し、解析結果が研究内容に使えることを評価する必要がある。また、電話やメールアドレスは表層的な記述書式で照合が可能であるが、企業名などの組織情報は変化が多く、信頼性の高い新聞記事などを解析する補完支援を実施する。 (2)常識的な知識として分野判定辞書の初版構築を行い、判定システムの試作も行った。最終年度では、WEB情報では新しい造語が頻繁に作成されるので、自動抽出モジュールの試作を進めることで、自然な話題を判定できるところまで実施する計画である。 (3)有害情報は掲示板に多く出現し、口語調で記述される場合が多くあるため裏サイトでの一次構築は終了した。最終年度では、WEBに存在する有害情報の抽出は継続し、同時にツイッターなどの対話的な情報から常識的な記述情報を抽出し、分析を進める計画である。 (4)大規模情報の検索システムは、実験用コーパスを検索構築するための活用準備は終了した。最終年度では、実際の構築データに対して、実験に必要なキーワードに相当する試験文書を検索結果として取得し、分析まで行える支援モジュールとして試験評価する計画である。 以上の情報収集と分析の成果を活用し、最終年度である25年度は、上記の今後の計画に対して、提案手法の評価を引き続き推進する計画である。
|
Research Products
(2 results)