2008 Fiscal Year Annual Research Report
風評被害対策に向けた情報の重要度を決める要因の抽出・分析と重要度の自動推定
Project/Area Number |
19700154
|
Research Institution | National Institute of Information and Communications Technology |
Principal Investigator |
村田 真樹 National Institute of Information and Communications Technology, 知識創成コミュニケーション研究センター言語基盤グループ, 主任研究員 (50358884)
|
Keywords | 情報の重要度 / 自然言語処理 / 新聞データ / 被験者データ / テキストマイニング / 教師あり機械学習 |
Research Abstract |
本年度はユーザ個人が考える情報の重要度に関する研究を行った。ユーザ同士の判断の一致度を知るために、記事ペアにおいてどちらの記事が重要であるかのユーザによる判定についてKappa値を計算した。Kappa値は0.08という非常に低い一致度の値が得られた。このことからどういう情報を重要と考えるかは人によって異なることがわかった。教師有り機械学習法を用いた実験により、個々のユーザが二つの記事のうちどちらが重要であると判断するかを65%前後の精度で予測できることがわかった。アンケートにおいて答えてもらったユーザ個人の興味情報と、教師有り機械学習により得られた各個人が重要と考える事柄の一致具合を検証した。興味情報が機械学習で重要とされた上位500個の単語の方と有意に重なりが多かった被験者は53人で、下位500個の単語の方が重なりが多かった被験者は2人であった。53人と2人は検定で有意差があるため、ユーザ個人の興味情報が、そのユーザの重要な記事の判断と相関があることがわかった。教師あり機械学習の学習過程で得られるパラメータの情報から、男性は「トヨタ」「野球」を女性は「出産」「懐妊」という事柄を重要と考えていることがわかった。これらの単語が示すものは情報の重要度に大きな寄与をしているものと思われる。この知見は今後の重要度推定システムの構築に役立つものである。情報の重要度の推定処理の応用および発展を目指して特許文書中で特に重要な箇所である請求項とその実施例の比較と対応付けの研究も行った。
|