大規模文書データからの意見・感情の自動抽出および分類
Project/Area Number |
16700132
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Allocation Type | Single-year Grants |
Research Field |
Intelligent informatics
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
高村 大也 東京工業大学, 精密工学研究所, 助手 (80361773)
|
Project Period (FY) |
2004 – 2005
|
Project Status |
Completed (Fiscal Year 2005)
|
Budget Amount *help |
¥2,900,000 (Direct Cost: ¥2,900,000)
Fiscal Year 2005: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2004: ¥2,200,000 (Direct Cost: ¥2,200,000)
|
Keywords | 感情極性 / 感性情報処理 / クラスタリング / 半教師付学習 / 顔文字 / 感情情報処理 / EMアルゴリズム / 意見分類 / 単語の感情極性 |
Research Abstract |
テキストにおける感情を扱う際の第一ステップとしては、単語の感情極性分類(各単語が良い意味か悪い意味かを判定)がある。我々はこの問題に対し、統計物理的アプローチを提案している。まず、辞書、シソーラス(類義語辞典)、コーパスデータを用いて、極性が同じになりやすい単語ペアを抽出する。そしてそれらのペアを連結することにより巨大な語彙ネットワークを構築する。例えば、「良い」と「良好」が類義語関係にあるので、この二単語を結ぶなどの作業を行う。ここで、単語の感情極性を電子スピンの方向とみなし、語彙ネットワークをスピン系とみなして、語彙ネットワークの状態(各スピンがどの方向を向いているか)を計算する。この計算結果を見ることにより、単語の感情極性を自動的に決定する手法を開発した。 次に単語から一つレベルを上げて、句の感情極性を考える。つまり、「ノートパソコンが厚い」はネガティブ(悪い意味)だが、「ステーキが厚い」はポジティブ(良い意味)であることを判定したい。我々は、この問題に対し、隠れ変数モデルと呼ばれる、単語のクラスタ(似た単語のグループ)を自動的に発見するような枠組を用いることを提案している。これにより、例えば、厚いことがポジティブであるような名詞が集まったクラスタを自動的に発見することができ、それにより正確な分類が可能になる。このような手法を実現した。 また、感情表現や評価表現が現れやすい文脈を自動的に学習していくことにより、表現を分類する手法も提案している。これは、半教師付き学習として有名なEMアルゴリズムを利用することにより実現している。開発手法は、ウェブログデータに対して数値実験を行い、その有効性が示されている。
|
Report
(2 results)
Research Products
(12 results)