本研究の申請書で述べた3つの研究目標に関してまとめる。 視覚情報と言語情報の統合的処理機構の開発と入力画像から常識の自動獲得に関しては以下の研究成果を得た。 画像処理研究と自然言語処理研究を組み合わせ、画像を感性豊かに説明するキャプション自動生成システムの構築を行った。本システムには以下の2つの特長がある。第一に、物体の感性語を推定する際、画像特徴だけでなく物体の名詞情報も活用した点である。提案システムでは、CNNを用いて抽出した画像特徴とword2vecで分散表現に変換した名詞情報を入力とし、感性語を推定するニューラルネットワークを構築することでより正確に感性語を推定することができる。第二に、表現力の高い感性語を生成するための感性語変換機構を作成した点である。 自然言語を生成できるニューラルネットワークの開発に関しては、文脈を考慮した会話文の自動生成が可能な対話システムの構築を行った。対話システムにおいてはSeq2Seqと呼ばれるモデルが注目を集めている。しかし、会話の流れの考慮が困難という問題点があった。そこで転移学習を適用した手法を提案した。具体的には、VHREDというニューラルネットワークのEncoder層とDecoder層をTwitterから得た大量の対話ペアを用いて学習する。そして、その他の層を会話の流れを反映するための対話ターン数の長いコーパスで学習する。この学習方法により、少量のコーパスでもVHREDを学習させることが可能となり文脈を考慮した対話が可能となった。さらに2019年度においては、共感と助言に着目した自動相談システムへ発展させた。相談においては特に相手の感情に対して共感する発話と相手に対して情報を与える助言の発話が重要である。提案システムでは相談者の入力文から抽出した感性語や話題語をもとにこれらの使い分けを行うことができる。
|