2004 Fiscal Year Annual Research Report
大規模文書データからの意見・感情の自動抽出および分類
Project/Area Number |
16700132
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
高村 大也 東京工業大学, 精密工学研究所, 助手 (80361773)
|
Keywords | 顔文字 / 感情情報処理 / EMアルゴリズム / 意見分類 / 単語の感情極性 |
Research Abstract |
まず、ウェブや電子メールでの感情表現として特徴的である顔文字について、その自動抽出および自動分類手法を提案した。分類においては、喜び・悲しみ・怒り・驚き・動作・苦笑の6つのカテゴリに顔文字が分類される。 また、意見文の肯定・否定分類(著者がその文章の話題に対して良いと思っているのか、悪いと思っているのか)において高い性能を示す手法を開発した。具体的には、テキストマイニング手法を用いて意見文に頻出する部分単語列を抽出し、それを分類の手がかりとした。 さらに、同じく意見文の肯定・否定分類において、少量のラベルつきデータと大量のラベル無しデータを合わせて用いることにより、分類器の性能が向上することも示した。提案手法においては、EMアルゴリズムという統計学習手法を用いた。この分類問題においては、上記の顔文字カテゴリが分類の一つの大きな手がかりになることがわかった。 また、辞書の定義文や、シソーラス、コーパスなどから単語の肯定・否定極性(良いイメージの単語か、悪いイメージの単語か)を抽出する手法も提案した。この手法では、語彙ネットワークが、統計物理で使用されているスピン系を用いてモデル化されている。抽出された単語極性が、意見文の肯定・否定分類に有用であることも示した。 また、ウェブ文書においては、句読点などが正しく使用されていないので、文という単位の抽出は簡単な問題ではないことがわかった。そのため、上記のような感情情報処理の前段階として、ウェブ文書からの文抽出というタスクが重要になることがわかり、そのための手法を開発した。
|
Research Products
(6 results)