Project/Area Number |
22K17957
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Institute of Physical and Chemical Research |
Principal Investigator |
寺西 裕紀 国立研究開発法人理化学研究所, 革新知能統合研究センター, 特別研究員 (50899408)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
Fiscal Year 2024: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
|
Keywords | 構文解析 / 並列構造解析 / 大規模言語モデル / 複合語解析 / 自然言語処理 / 依存構造 / 並列構造 / 複文構造 |
Outline of Research at the Start |
文の構造解析の基盤技術は、単語と単語の間の係り受け関係(依存関係)を明らかにすることであるが、既存技術は近接して現れる単語間の依存関係しか高精度に解析できていない。科学技術論文などの専門的文書には長く複雑な文が頻出し、離れた単語間の依存関係の解析が困難であるため、単語の依存関係に基づくテキストマイニングの性能に影響を及ぼしている。 本研究は、文を長く複雑にする要因となる複文構造や並列構造などの言語現象に着目し、言語現象の性質を利用した単語間の関係解析を試みる。言語現象の構成要素に基づいた解析手法を確立し、長く複雑な文における単語間の依存関係の解析精度向上を目指す。
|
Outline of Annual Research Achievements |
本年度は(i)長文の構文解析、(ii)複雑な文の構文解析 を対象に研究を進めた。 (i)長文の構文解析について、長文を意味のあるまとまり(チャンク)で区切ることで、チャンク内の局所的解析・チャンク間の大域的解析によるアプローチを試みた。チャンクとして談話構造のセグメントを用いて実験を行った結果、談話構造のセグメント境界と統語構造構文木の部分木範囲が一致しない事例が少なくなく、構文解析の精度向上に至らなかった。談話構造の情報を構文解析の制約として用いるのではなく、構文解析の学習・推論のための特徴として用いるなど、今後の方向性が得られた。異なるチャンク粒度として、文が長くなるドメインにおいて顕著に現れる長い名詞句に着目した予備実験を行った。しかし既存の言語資源の多くは名詞句内の複合語のアノテーションが付与されておらず、アノテーションの欠落に起因する学習・評価の問題が判明した。そこで複合語のアノテーションを補完する手法について開発を進行中である。 (ii)複雑な文の構文解析について、複雑な文に頻出する並列構造に着目し、並列構造の範囲同定タスクにおいて成果が得られた。具体的には、大規模言語モデルを利用した空所補完によって並列構造を生成させ、得られた並列構造を範囲同定タスクの学習に用いることでタスクの精度向上に成功した。今後は同種のアプローチを並列構造以外の言語現象・構造に適用するなどの応用も検討する。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
長文の構文解析について、初年度は構文解析を分割統治的に実行するためのチャンク粒度を設計する計画であったが、実際にチャンク粒度の設計について実験・分析を行って一定の示唆が得られた。 また、文を長く複雑にする要因となる言語現象に着目した解析について、並列構造の解析に関する研究成果が得られた。
|
Strategy for Future Research Activity |
2023年度は長文の構文解析の分割統治的アプローチにおいて、チャンク内解析・チャンク間解析のそれぞれに特化した手法について開発を進める。
|
Report
(1 results)
Research Products
(1 results)