研究課題/領域番号 |
16K00338
|
研究機関 | 慶應義塾大学 |
研究代表者 |
萩原 将文 慶應義塾大学, 理工学部(矢上), 教授 (80198655)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 畳込みニューラルネットワーク / 分散表現 |
研究実績の概要 |
平成29年度における課題は「統合的処理による入力画像からの物体に関する常識の自動獲得」である。本年度は、自然言語処理研究と画像処理研究を組み合わせ、画像を感性豊かに説明するキャプション生成に取り組んだ。具体的には単語の分散表現と画像特徴を活用したシステムを構築した。 提案システムには、以下の2 点の特長がある。第一に、物体の感性語を推定する際、画像特徴だけでなく物体の名詞情報も活用した点である。既存研究では画像特徴のみを用いて感性語の推定を行っていた。提案システムでは、CNN (Convolutional Neural Network) を用いて抽出した画像特徴とword2vec で分散表現に変換した名詞情報を入力とし、感性語を推定するニューラルネットワークを構築することでより正確に感性語を推定する。第二に、表現力の高い感性語を生成するための感性語変換機構を構築した点である。表現力の高い感性語は複数の感性語のニュアンスの組み合わせで決定するという仮定のもと、word2vec を活用し、複数の感性語をより表現力の高い感性語に変換する。評価実験では、3 種類の実験を行った。まず、名詞情報を活用した感性語推定部の評価を行った。結果として、画像特徴のみを利用したシステムと比較して高い正解率で感性語が推定できることが確認された。次に、生成したキャプションの定量的評価実験と主観評価実験を行った。定量的評価実験では、3つの指標を用いてキャプションを評価し、既存の感性語を付与したキャプション生成システムを上回る結果になった。主観評価実験では、提案システムによって、多様な感性語を付与した表現力の高い画像キャプションが生成可能であることが示唆された。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
本年度は、自然言語処理研究と画像処理研究を組み合わせ、画像を感性語を用いて説明するキャプション生成システムの構築に成功した。まず、単語をベクトルで表現するword2vecの手法を利用することにより、単語の類似性の考慮が可能となった。これを画像特徴量と結び付けてキャプションの自動生成に成功した。研究計画時においては、感性情報の考慮は極めて困難と考えていたが、最新の自然言語処理とニューラルネットワークの技術をうまく融合することにより可能となった。生成されるのはキャプションであり、正確には文章にはなっていないが、視覚・言語情報を統合的に扱うことのできるニューラルネットワークの構築という意味で、非常に大きな進展をあげることができた。
|
今後の研究の推進方策 |
平成30年度においては、大きな進展のあったこれまでの研究をさらに発展させる。これまでの研究で、物体の検出、各物体の知識とイメージ、複数物体の組み合わせによる場やイメージの推定が可能となった。最終年度は、これらの情報、具体的には単語群と画像特徴量をもとに、簡単な文による表現をめざす。従来の自然言語処理ではなく、今後の柔軟で多様な表現をめざし、ニューラルネットワークによる文生成の構築を行う。さらに、これまでの研究成果を集大成し、視覚・言語情報を統合処理するニューラルネットワークとして完成させる。 1) ブローカ野とウェルニッケ野を考慮したネットワークによる文の自動生成 脳では、単語に関する知識はウェルニッケ野、文法や統語に関してはブローカ野が扱っていると言われている。言語情報処理ニューラルネットワークは、単語に関する知識やイメージを扱っている。 2) 視覚・言語情報を統合処理するニューラルネットワーク ネットワーク全体で最終的な調整を行う。
|
次年度使用額が生じた理由 |
旅費に関しては、今年度は研究そのものに重点を置いた傾向があり、科研費による出張は少なかった。物品費に関して今年度は、必要な計算パワーに応じた計算機を購入したため、資金に余裕ができた。 平成30年度は研究の完成をめざして、計算パワーの大きな計算機の購入を考えている。
|