研究課題/領域番号 |
21K21343
|
研究機関 | 東北大学 |
研究代表者 |
坂口 慶祐 東北大学, 情報科学研究科, 准教授 (20934087)
|
研究期間 (年度) |
2022-02-18 – 2025-03-31
|
キーワード | 自然言語処理 / 大規模言語モデル / マルチモーダル / 深層学習 |
研究実績の概要 |
現代社会において、人間とAIによる自然なインタラクションや協働を可能にするためには、ユーザーの文脈を考慮し柔軟に対応できる自然言語処理モデルが必要不可欠である。このようなモデルは、ユーザーのニーズに応じた対話を可能にし、AIとユーザー間のコミュニケーションのをより円滑にすると考えられる。 しかし、現時点では「静的な文脈のみを必要とするベンチマーク上での高い精度と、動的な文脈が重要になるアプリケーションでの低い精度とのギャップ」が問題となっている。つまり、一方ではAIは一定の文脈におけるパフォーマンスを向上させる一方で、より広範で複雑な状況に対応する能力にはまだ限界があることが確認されている。 その解決策として、本研究課題では現実世界のように常に状況や文脈が変化する環境に対応可能なマルチモーダルモデルを提案する。このモデルは、言語情報だけでなく、視覚情報、聴覚情報を統合的かつ逐次的に学習する能力を持つ。これにより、AIはユーザーの現在の状況をより深く理解し、それに基づいた適切な対応を提供することが可能となる。 着任の2022年8月より開始した今年度は、前半に実験環境の構築やシステム開発に向けた関連研究のサーベイ、それらの再現実験、本研究課題において最終的に必要となる、数量推論や知識推論、ユーザーフィードバック生成に関わる深層学習モデルの研究開発を行い、後半以降ではそれらの成果の研究発表(国際会議採択件数3件、国内会議6件、招待講演4件)、および次年度に向けたマルチモーダルモデルのサーベイ、再現実験を開始した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
初年度である今期は、研究環境構築といったセットアップのフェーズと、最終的な課題に向けて必要になる要素の分割、それぞれの必要要素に対するサーベイと実験という2つの柱について、概ね予定通り進めることができたと言える。特に、今期後半では成果の一部を研究発表するところまで進めることができた。一方、今期後半では大規模言語モデルの高性能化やリリースが飛躍的に進み、自然言語処理において大きなブレイクスルーが起こったため、その知見に対するアップデートが必要になっている。このブレイクスルー自体は、本研究課題にとっては追い風であり、次年度は新技術へ柔軟に対応しながら課題を推進する。
|
今後の研究の推進方策 |
現在までの進捗状況、現在までの達成度でも述べたとおり、大規模言語モデルの高性能化、API等のリリースが分野全体で飛躍的に進んでおり、それらの技術を素早く柔軟に活用することが重要になると考えられる。本研究課題の最終的な目的自体は変わらないものの、そこへ至る方法についても柔軟に対応しながら課題を推進する。具体的には当初想定していたマルチモーダルモデルより優れたモデルをベースにできる可能性があり、その方向性についてもサーベイや予備実験を実施したい。
|
次年度使用額が生じた理由 |
実験に必要なGPUサーバーの導入にあたり、半導体不足による影響および、研究室建物における電源の確保のための工事が必要なことが明らかになり、サーバー導入は次年度に対応する予定である。建物における電源確保工事が難しい場合は、クラウド環境を用いることで対応する。 また、国際会議参加のための旅費を計上していたが、COVID19の影響により日本への再入国が難しく、オンラインでの参加となった。次年度はCOVID19による制約がなくなると考えられる。
|