2022 Fiscal Year Annual Research Report
Research on AI's reading comprehension of multimedia data for improving language proficiency
Project/Area Number |
18K11557
|
Research Institution | Kyoto Sangyo University |
Principal Investigator |
宮森 恒 京都産業大学, 情報理工学部, 教授 (90287988)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | マルチモーダル / 読解力 / 統計データ / リランキング / ファクトチェック支援 / クエリ志向文書要約 / 深層学習 / 人工知能 |
Outline of Annual Research Achievements |
最終年度の成果は以下の通りである。まず、テキストから視覚的要素を連想する能力について、画像・言語モデルがどの程度順序数の概念を的確に把握し活用できるのかについて調査し、参照表現中の必要な数え上げ数が増えると正解率が増加する等の傾向を確認した。図表と文脈を関係付ける能力について、文脈としての因果関係抽出の問題に取り組み、複数の言語モデルの単語埋め込みとマルチタスク学習を用いることで性能向上を実現できること、また、把握した内容を説明する能力について、外部知識を参照することでテキストから動画を生成する手法について基礎的な検討を行い、課題点を明らかにした。 補助事業期間全体を通じて実施した研究の成果は以下の通りである。まず、テキストから視覚的要素を連想する能力については、質問応答タスクにおいて、テキストのみで学習するモデルよりも、画像の特徴表現を融合的に利用した手法の方が、テストデータに対し高い正答率を出すことを確認した。次に、図表と文脈を関係付ける能力については、統計データ検索タスクにおいて、統計データのメタデータにはない情報を統計表本体から抽出し補強する手法が、従来手法を含め、最も良好な値を示すことを確認した。最後に、把握した内容を説明する能力については、テキスト、手話、動画の各々で説明するタスクについて、Transformerを活用することで、比較的長い系列を扱う場合でも優れた性能を発揮しうることを確認した。 本研究により、従来の自然言語処理だけでは得られない、より人間に近い的確な読解力を実現する基盤技術に貢献する成果を挙げることができた。AIの言語運用能力の向上は、超スマート社会の根幹を担う技術の一つであり、その意義は大きい。
|
Research Products
(7 results)