本年度は一般的な情報の重要度に関する研究を行った。新聞の一面に書かれている記事は他の面の記事よりも重要であり、長い記事は短い記事よりも重要であると思われる。それを手がかりとした新聞データを利用した教師あり機械学習の実験を行った。新聞データを学習データとして利用した場合、入力された二つの新聞の記事のうち、いずれが1面の記事であるかを9割以上の精度で推定できた。これにより新聞の面情報を基準とした重要度は計算機で比較的容易に学習できることがわかった。また、どちらの記事の方が重要かを問う被験者実験を行った。300人以上の被験者により560組のデータ(以降被験者データと呼ぶ)を作成した。それを手がかりとした実験も行った。被験者データを学習データとして、被験者が重要と考える方の記事を機械学習により推定したところ約7割の精度で推定できた。被験者が重要と考えるものの特定は新聞の面情報を基準とするものよりも難しいが、それでもある程度の精度で推定できることがわかった。また、テキストマイニング技術や教師あり機械学習の学習過程で得られるパラメータの情報から新聞記事中のどのような単語が記事の重要度に寄与しているかを調べた。その結果、「年金」「殺人」「事件」「政府」「事故」といった単語が重要度の大きいものと思われる。この知見は今後の重要度推定システムの構築に役立つものである。情報の重要度の推定処理の高度化を目指して受身文を能動文に変換する研究も行った。
|