Project/Area Number |
22K17957
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
寺西 裕紀 国立研究開発法人理化学研究所, 革新知能統合研究センター, 特別研究員 (50899408)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
Fiscal Year 2024: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
|
Keywords | 構文解析 / 複合語解析 / 文脈解析 / 文書エンコーダ / 並列構造解析 / 大規模言語モデル / 自然言語処理 / 依存構造 / 並列構造 / 複文構造 |
Outline of Research at the Start |
文の構造解析の基盤技術は、単語と単語の間の係り受け関係(依存関係)を明らかにすることであるが、既存技術は近接して現れる単語間の依存関係しか高精度に解析できていない。科学技術論文などの専門的文書には長く複雑な文が頻出し、離れた単語間の依存関係の解析が困難であるため、単語の依存関係に基づくテキストマイニングの性能に影響を及ぼしている。 本研究は、文を長く複雑にする要因となる複文構造や並列構造などの言語現象に着目し、言語現象の性質を利用した単語間の関係解析を試みる。言語現象の構成要素に基づいた解析手法を確立し、長く複雑な文における単語間の依存関係の解析精度向上を目指す。
|
Outline of Annual Research Achievements |
本年度は(i)チャンクに基づく長文の構文解析、(ii)長文に特化した文書表現エンコーダ について研究を進めた。 (i)長文の構文解析について、文を意味のあるまとまり(チャンク)で区切ることによるチャンク内・チャンク間解析に基づくアプローチを昨年度より引き続き進めた。昨年度の課題として挙げた、名詞句内の複合語に関するアノテーションの欠落に起因する学習・評価の問題について、本年度は少数のアノテーションを人手により付与して予備実験を行った。実験の結果、アノテーションの補完による複合語の構文解析の精度向上は限定的であった。また、複合語の依存構造アノテーション付与にはドメインに関する専門的知識が必要であり、同一単語列から成る複合語に対して文脈・解釈により異なる依存構造が付与され得るため、一貫したアノテーションを人手で付与する(あるいは辞書等を用いて機械的に処理する)ことが困難であった。 (ii)文書の構文解析において、各文を独立に解析するのではなく、文書内で可能な限り広い文脈を参照しながら各文の構文解析を行うアプローチを試みた。本年度は、文書内の文脈を広く参照するための文書エンコーダの開発を進めた。文書エンコーディングの方法として、文書をセグメントに分割し、セグメントを従来の(Transformer)エンコーダによってベクトル表現に変換し、各セグメント表現を統合することで文書表現を得る手法を検証した。分割・統合に基づく文書エンコーダは特定のタスク・設定においてTransformerアーキテクチャの文脈伸長化と比較して高い性能を達成することが先行研究のとおり確認できた。そこで分割・統合に基づく文書エンコーディングに適した表現学習手法について検証・開発を進行中である。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
長文・複雑な文の構文解析に関して、昨年度・今年度取り組んできたチャンクに基づくアプローチについて成果の見込みが低く、異なるアプローチの模索・開発を進めたため。
|
Strategy for Future Research Activity |
2024年度は、広い文脈を参照する構文解析のアプローチの開発を進める。
|