研究課題/領域番号 |
19K12108
|
研究機関 | 大阪学院大学 |
研究代表者 |
大谷 朗 大阪学院大学, 情報学部, 教授 (50283817)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | ツリーバンク / 主辞駆動句構造文法 / HPSG / コーパス / Keyaki / 言語情報 / 日本語文法 |
研究実績の概要 |
本研究は,理論言語学的な分析に基づいた日本語文法の一般化を,コンピュータで日本語テキストを処理する際に必要となる言語情報処理用の文法として形式化する際に生じるさまざまな問題を解決しつつ,精細な言語分析に基づくタグが付与されている日本語ツリーバンクの統語・意味解析情報の統括的な形式化として,大規模な日本語主辞駆動句構造文法 (Head-driven Phrase Structure Grammar: HPSG) を構築することを目標としている. 単語・形態素の連接や係り受け・統語構造のような言語の表層的な情報しか利用していないいわゆる浅い解析に基づいた文解析木の蓄積による集合知を指向する「量」を重視したコーパスからではなく,言語学的に意味のある一般化 (linguistically significant generalization) に基づくことでタグに込められた情報そのものの「質」を重視したコーパスからこそ,言語処理に有用な情報が精細な形式文法として抽出できるのではないか. こうした独自の問題意識から,今年度は言語学的な分析に基づいて行われた統語・意味解析情報のタグ付けの精度が高いKeyakiツリーバンクを精査している.Keyakiツリーバンクに頻出する構文,言語現象を確認するとともに,それらが一貫したアノテーション・スキームに基づいてタグ付与されているかという点に注意を払いつつ,そうしたスキームと日本語HPSG文法の原理・規則との対応関係を抽出するべく,特に益岡・田窪の「基礎日本語文法ー改訂版ー」の各文法項目に該当する用例を中心に,日本語の基本構文のアノテーション情報とHPSG文法の原理的説明との対応関係について考察している.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
本研究は,精細な言語分析に基づくタグが付与されている日本語ツリーバンクの統語・意味解析情報の統括的な形式化として,大規模な日本語HPSG文法を構築することを目標としている.大規模な文法の構築とツリーバンクの解析との関係は,文法形式化・解析の結果が文法自体の精度を上げるために行う改訂のフィードバックとして使用されるだけでなく,ツリーバンクのアノテーション・スキームの一貫性を維持するためにも要検討であるという点で密接である. 研究代表者は,かつて大規模日本語HPSG文法Jacyを構築する際に使用してきたHinokiツリーバンクの開発手法とその際に使用されてきたツールを援用することで,代表者個人の手作業による文法形式化の記述をKeyakiツリーバンクの高速解析に適用し,コーパス解析木だけでなくさらなる文法の修正のフィードバックを得ていくことで,量と質を兼ね備えた言語資源,すなわちYet Another大規模日本語HPSG文法を効率的に開発しようとしている. こうした目標を達成するため,本研究は日本語文法・ツリーバンクの理論的な考察や実証的な作業を並行的かつ段階的に進めている.計画初年度では新たに導入したPC設備を用いてJacy,Hinokiツリーバンクの開発で用いられていたDELPH-INツールおよびNPCMJ(Keyakiツリーバンクの一部を発展させて開発継続中コーパス,NINJAL)で使用される検索ツールといった文法・ツリーバンク開発環境を整備することが一つの課題であった. しかしながら,上記PC設備の導入の遅れや現在は運用フェーズにないDELPH-INツールの導入に難航していることもあり,理論分析と並行してすすめる予定であった日本語HPSG文法解析器の基幹モジュール部分が完動していないため,初年度の目標が十分に達成できていない現状にある.
|
今後の研究の推進方策 |
まずは,新型コロナウィルス感染症(COVID-19)拡大防止への対応として制限を受けていた移動や研究室への出入りの規制緩和に伴い,一般的な研究活動を再開させる.また,この自粛期間中に構築してきた大学の遠隔授業環境も援用し,可能であれば昨年度後半から計画通りには実施できなくなっていた外部との研究打合せや討議,情報収集を積極的に行う. 具体的事案として,NINJALについては国内研究者との対面打合せや会合への参加を促進し,また,現在運用フェーズにないことで情報収集が困難となっていたDELPH-INツールの導入のトラブルシューティングは緊要の課題に据えたい.特に,理論分析と並行してすすめる予定であった日本語HPSG文法解析器の基幹モジュール部分を早急に稼働させることで,本研究の特色でもある理論研究と実証研究の両輪を相互に動かして研究を推進していく必要がある.基礎日本語文法の基本部分,とりわけ単文レベルの重要構文の理論的な精査は前年度に概ね完了しており,また,HPSG文法としての理論的形式化も設計自体は断片的に出来てきているので,今年度はそうした文法を統合し,解析器の基幹モジュールとしてDELPH-INツール上で稼働させることを目標とする. 前年度後半の大幅な研究活動の停滞によって生じてしまった研究の全体的な遅延は取り返すことはできないが,それでも,まずは今年度に確実にすすめておくべき単文の解析からはじめて,申請時に計画していた複文・重文の解析へと文法の適用範囲を拡張していき,そして,より広範囲にKeyakiツリーバンクを解析することを今年度以降では目指していくことにする.
|