まず、第一段階として意味は類似しているが感情極性が異なるような言語表現を獲得した。二種類の手法を試した。一つ目は、統計的機械翻訳モデルに基づくものである。これは、日英パラレルコーパスを用い、日英翻訳モデルを構築し、ある日本語単語が何らかの英単語に翻訳され、さらに別の日本語単語に翻訳し直される確率を求めた。この確率を言い換え確率とみなした。二つ目の方法では、EDR辞書というシソーラスを用い、そこで語義IDが同じものを類義語として獲得した。後者の方法の方が良いリソースが構築できることを確認した。また、類義語同士で感情極性が反転しているような例はそれほど多くなく、感情極性を制御するモデルの構築は容易ではなさそうであるが、表現の丁寧さなどを制御するモデルは、構築できる可能性がある。さらに、感情制御可能な言い換えモデルの構築を行った。具体的には、与えられた文脈において類義語のうちどれを選ぶべきかを出力するモデルを、ranking SVMを用いて学習した。用いた情報周囲に出現した単語や、それ自身の文字種、その単語の出現確率などである。試したのは、女性著者のブログと男性著者のブログの言い換え、及び小説と国会議事録の言い換えである。ただし、今回は内容語を主な対象としている。詳細な評価はまだ行っていないが、部分的な評価によると、有用性の高いアプリケーションを構築するためには内容語だけでなく機能語も変換対象にする必要があるようである。
|