本研究では、時事問題が与えられたとき、それに対する人々の意見を集約・分析し、わかりやすい形式でユーザに提示することを目的とし、他者の記事の引用を含むブログ記事の極性判定、すなわちブログ記事が時事問題に対して肯定的あるいは否定的意見を述ベているかを判定する問題の解決に取り組んだ。 まず、ブログ記事に対し、他者の記事を引用している箇所を特定した。「転載」「掲載」などの特定のキーワードの出現やフォントなどのスタイルの変更を特徴量とし、引用箇所を自動検出するモデルを機械学習した。次に、ブロガーが書いたテキストの極性、引用されたテキストの極性、および引用関係をそれぞれ解析した。引用関係とは、ブロガーがどのような立場で他の記事を引用したかを表わす関係であり、順接(引用した記事に賛成)、逆接(引用した記事に反対)、無関係のいずれかとした。これら3つの解析結果を総合的に判断する27種類のルールによって、ブログ記事全体の極性を決める手法を実装した。例えば、ブロガーのテキストの極性が中立、引用した記事の極性が肯定、引用関係が逆接のとき、ブログ記事全体の極性を否定と判定した。評価実験の結果、提案手法の極性判定の正解率はベースラインを5%程度上回ることを確認した。 最終年度では、上記の提案手法のうち、時事問題のテキスト(ブロガーが書いたテキスト、引用されたテキスト)の極性判定の性能を高める研究に取り組んだ。時事問題テキストを対象としたとき、機械学習による極性判定の性能は、訓練データの時事問題とテストデータの時事問題が異なるときに著しく低下することがわかった。この問題を解決する分野適応の手法として、訓練データの個々の事例に対し、その事例の特徴量との類似度が高く、かつテストデータのみに出現する特徴量を自動的に拡張する手法を考案し、その有効性を確認した。
|