2023 Fiscal Year Annual Research Report
Deepening linguistic analysis methods for understanding and utilizing real documents
Project/Area Number |
22K19818
|
Research Institution | National Institute of Informatics |
Principal Investigator |
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
|
Project Period (FY) |
2022-06-30 – 2024-03-31
|
Keywords | 文書理解 / 自然言語解析 / 言語モデル / 文書レイアウト / 視覚的言語理解 |
Outline of Annual Research Achievements |
前年度に引き続き、近年の大規模言語モデルの登場を踏まえて関連分野の調査を行うとともに、以下の3つの研究課題に取り組んだ。まず、(1)ブラウザ上の仮想環境で指定のタスクを遂行するアクション列を出力するタスクであるMiniWoB++に対して、大規模言語モデルのエージェントを用いてデータ増強を行うフレームワークを構築し、タスクインスタンスを正解のアクション列とともに自動生成可能であることを示した。また、(2)数式と同様に、抽象的な数量概念と対応付けられながらも、文脈的な解釈を必要とする文中の数字(例:「220cmの男性→背が高い」)を対象として、k近傍言語モデルを用いた数字の埋め込み表現を提案して有効性を評価し、その結果を国際会議で発表した(Sakamoto et al., 2023)。さらに、(3)英語における大文字と小文字表記の違いに注目して、固有表現抽出タスクにおける影響を分析、データ増強による性能改善に取り組んで国際学会で発表した(Dao et al., 2023)。また、テキスト中の固有表現抽出における表記ゆれを吸収する手法を提案して有効性を示した(Pham et al., 2023)。
|