最終年度は、これまで構築してきた俗語感性データベースの分析を行い、未知の俗語を含むSNS上の発言に対する感情推定手法を提案し、評価をおこなった。提案手法は、単語の分散表現の集合をクラスタリングしたうえでクラスタの出現頻度に基づく類似文字列検索手法を応用したk近傍法による分類方法であり、未知の表現に対して、従来手法に比べて汎用性が高いことがわかった。また、俗語が使用されるトピックや文脈をトピックモデリング手法を用いて分析することで時系列での意味の変化をとらえることが可能なシステムを試作した。俗語分析に関して、俗語文の文の分散表現を用いた手法とトピック分析による手法とで、得られる特徴の変化に違いがあることが確認できた。この結果について、国際ジャーナルで発表した。 また、俗語とともにSNS上で使用される頻度の高い「絵文字」を対象として、絵文字の表している意味(絵文字のカテゴリ)を絵文字が付与されているツイート文を特徴とすることで分類する手法を提案した。これにより、絵文字からその絵文字が付与されているツイートにおいて使用される俗語の意味カテゴリを推測することも可能になる。本提案手法の実験結果を9月に開催された国際会議において成果発表した。また、絵文字と同様にWeb上で使用されるASCII artにも着目し、テキスト情報(文字特徴)と画像特徴(アスキーアートを画像に変換)の2通りの特徴量のうちどちらがカテゴリの分類に有効かについて検討した。この結果、文字単位で画像特徴量を抽出し、その特徴量を平均化したものを機械学習手法により学習させることで、画像全体から得た特徴量よりも高い精度で分類できることがわかった。この研究成果について、国内で開催された人工知能学会全国大会および10月にマレーシアで開催された国際会議で発表し、その内容が国際ジャーナルに掲載された。
|