研究課題/領域番号 |
22K17957
|
研究機関 | 国立研究開発法人理化学研究所 |
研究代表者 |
寺西 裕紀 国立研究開発法人理化学研究所, 革新知能統合研究センター, 特別研究員 (50899408)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
キーワード | 構文解析 / 複合語解析 / 文脈解析 / 文書エンコーダ |
研究実績の概要 |
本年度は(i)チャンクに基づく長文の構文解析、(ii)長文に特化した文書表現エンコーダ について研究を進めた。 (i)長文の構文解析について、文を意味のあるまとまり(チャンク)で区切ることによるチャンク内・チャンク間解析に基づくアプローチを昨年度より引き続き進めた。昨年度の課題として挙げた、名詞句内の複合語に関するアノテーションの欠落に起因する学習・評価の問題について、本年度は少数のアノテーションを人手により付与して予備実験を行った。実験の結果、アノテーションの補完による複合語の構文解析の精度向上は限定的であった。また、複合語の依存構造アノテーション付与にはドメインに関する専門的知識が必要であり、同一単語列から成る複合語に対して文脈・解釈により異なる依存構造が付与され得るため、一貫したアノテーションを人手で付与する(あるいは辞書等を用いて機械的に処理する)ことが困難であった。 (ii)文書の構文解析において、各文を独立に解析するのではなく、文書内で可能な限り広い文脈を参照しながら各文の構文解析を行うアプローチを試みた。本年度は、文書内の文脈を広く参照するための文書エンコーダの開発を進めた。文書エンコーディングの方法として、文書をセグメントに分割し、セグメントを従来の(Transformer)エンコーダによってベクトル表現に変換し、各セグメント表現を統合することで文書表現を得る手法を検証した。分割・統合に基づく文書エンコーダは特定のタスク・設定においてTransformerアーキテクチャの文脈伸長化と比較して高い性能を達成することが先行研究のとおり確認できた。そこで分割・統合に基づく文書エンコーディングに適した表現学習手法について検証・開発を進行中である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
長文・複雑な文の構文解析に関して、昨年度・今年度取り組んできたチャンクに基づくアプローチについて成果の見込みが低く、異なるアプローチの模索・開発を進めたため。
|
今後の研究の推進方策 |
2024年度は、広い文脈を参照する構文解析のアプローチの開発を進める。
|
次年度使用額が生じた理由 |
アプローチの変更により、予定していたアノテーション業務の発注がなくなったため。
|