Natural Language Interface Technology to Support Complex Tasks
Project/Area Number |
21H03502
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Allocation Type | Single-year Grants |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | National Institute of Informatics |
Principal Investigator |
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥17,290,000 (Direct Cost: ¥13,300,000、Indirect Cost: ¥3,990,000)
Fiscal Year 2023: ¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000)
Fiscal Year 2022: ¥6,110,000 (Direct Cost: ¥4,700,000、Indirect Cost: ¥1,410,000)
Fiscal Year 2021: ¥6,630,000 (Direct Cost: ¥5,100,000、Indirect Cost: ¥1,530,000)
|
Keywords | 対話システム / 意味解析 / 基盤化 / 言語モデル / 視覚言語 |
Outline of Research at the Start |
本研究では、複雑な作業を言語でコンピュータに指示するための対話技術の実現を目指す。ここでの「複雑な作業」とは、事前登録した関数を呼び出すだけでは解決できず、複数の関数の呼び出しや詳細な条件設定などが必要となる処理である。このような複雑な作業は、単発の自然な発話では指示が困難であることから、本研究では対話に焦点をあてて、基盤化による共通理解モデルの構築や意味解析技術の研究に取り組む。
|
Outline of Annual Research Achievements |
本研究では、複雑な作業を言語でコンピュータに指示するための対話技術の研究に取り組む。ここでの「複雑な作業」とは、事前登録した関数を呼び出すだけでは解決できず、複数の関数(API)の呼び出しや詳細な条件設定などが必要となる処理である。このような複雑な作業は、単発の自然な発話では指示が困難で、現在のスマートスピーカやオンラインチャットの技術では扱うことができない。本研究では、その限界を克服するための中核的な技術として、対話による共通理解モデルの構築(=「基盤化」)に焦点をあてている。そして、「エンティティ参照の基盤化」、「作業手順の基盤化」、および「対話知識の獲得」の3つの課題を設定して、言語、視覚、計算プログラムが融合した環境に適応する新しい基盤化手法の研究開発に取り組んでいる。
2022年度は、発話内容をコンピュータで実行可能なコマンド列に変換するための技術として、自然言語文クエリをSQLクエリに変換する意味解析の研究開発に取り組んだ。特に、自然言語文中のエンティティとデータベースの構成要素(項目名や値など)の対応付け手法の開発に取り組み、未知のデータベースにも適応可能な汎用的な解析手法の開発を進めた(「エンティティ参照の基盤化」)。また、ブラウザ上に表示される自然言語タスク等に回答するため視覚・言語・アクションを統合した新たな言語モデルを提案して実装・評価した(「作業手順の基盤化」)。2022年度ではさらに自然言語による質問応答について、言語モデルのショートカット学習や多段推論の分析手法を提案して評価した。さらに、基盤化において重要な数量的知識の獲得に関する研究に取り組み、数字の予測タスクを用いて自然言語文中に出現する数字の埋め込み表現を獲得する手法を提案した(「対話知識の獲得」)。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
自然言語文クエリをSQLクエリに変換する意味解析の研究については、未知のデータベースに対応する汎化能力に対応するためのデータ増強手法を提案して、既存のSPIDERデータセットを拡張して有効性を示した。その結果を国際会議で発表した(Julavanich et al., 2022)。また、視覚・言語・アクションを統合した新たな言語モデルについては、ブラウザ上でのフォームへの入力やマウスクリック等を含むタスクを通して有効性を検証してarXiv論文の形で発表した(Iki et al., 2022)。自然言語による質問応答については、言語モデルのショートカット学習に関する分析や多段推論の分析手法に関する研究成果を国際会議で発表した(Shinoda et al., 2023-a,b; Ho et al., 2022; Meissner et al., 2022)。さらに、自然言語文中に出現する数字の埋め込み表現の獲得についてk近傍言語モデルを用いた手法を提案して口頭提案した(Sakamoto et al., 2022)。
|
Strategy for Future Research Activity |
2023年度は、数量的知識の獲得に関する研究を引き続き実施して、文中の数字の誤り検出タスクの設計およびモデル構築に取り組む。また、対話の基本ユニットとなる質問応答については、特に多段推論機能に焦点をあてて、ショートカットの回避および回答への説明出力の手法の研究を進める。これらの研究成果を踏まえて、文書に紐づけられた(基盤化された)対話システムの研究を実施して、最終年度のまとめとする。
|
Report
(2 results)
Research Products
(13 results)