研究課題/領域番号 |
19K12108
|
研究機関 | 大阪学院大学 |
研究代表者 |
大谷 朗 大阪学院大学, 情報学部, 教授 (50283817)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | ツリーバンク / 主辞駆動句構造文法 / HPSG / コーパス / Keyaki / 言語情報 / 日本語文法 |
研究実績の概要 |
本研究では,言語学的な分析に基づく日本語文法の一般化を,コンピュータで日本語テキストを処理する際に必要となる言語情報処理用の文法として形式化し,また,その際に生じるさまざまな問題を解決しつつ,精細な言語分析に基づくタグが付与された日本語ツリーバンクの統語・意味解析情報の統括的な形式化として,大規模な日本語主辞駆動句構造文法 (Head-driven Phrase Structure Grammar: HPSG) を構築することを目標としている. 単語・形態素の連接や係り受け・統語構造のような言語の表層的な情報のみを利用する,いわゆる浅い解析に基づいた文解析木の蓄積による集合知を指向する「量」を重視したコーパスからではなく,言語学的に意味のある一般化 (linguistically significant generalization) に基づくことでタグに込められた情報そのもの,いわば「質」を重視したコーパスからこそ言語処理に有用な形式文法が抽出できるのではなかろうか. こうした独自の問題意識から,今年度も昨年度に引き続き,言語学的な分析に基づく統語・意味解析情報のタグ付け精度が高いKeyakiツリーバンクを精査している. Keyakiに頻出する構文・言語現象を確認するとともに,それらが一貫したアノテーション・スキームに基づいてタグ付与されているかという点に注意を払いつつ,そうしたスキームと日本語HPSG文法の原理・規則との対応関係の抽出を試みる.特に益岡・田窪の「基礎日本語文法ー改訂版ー」の各文法項目に該当する用例を中心に,日本語の基本構文のアノテーション情報とHPSG文法の原理的説明との対応関係について検討している.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
本研究は,精細な言語分析に基づくタグが付与された日本語ツリーバンクの統語・意味解析情報の統括的な形式化として,大規模な日本語HPSG文法を構築することを目標としている.文法の構築とツリーバンクの解析との関係は,文法形式化・解析の結果が文法自体の精細さを向上させるためのフィードバックとして使用されるだけでなく,ツリーバンクのアノテーション・スキームの一貫性を維持するためにも検討を要するものであるという点で密接である. 研究代表者は,かつて大規模日本語HPSG文法Jacyを構築する際に使用してきたHinokiツリーバンクの開発手法とその際に使用されてきたDELPH-INツールを援用することで,自身の作業による文法形式化の記述をKeyakiツリーバンクの高速解析に適用し,そこからコーパス解析木だけでなくさらなる文法の修正のフィードバックを得ていくことで,量と質を兼ね備えた言語資源,すなわちYet Another大規模日本語HPSG文法を効率的に開発しようとしている. しかしながら,今年度はコロナ禍という全世界的な有事のために,研究・作業の遂行に必要な設備の導入に大幅な遅延が生じ,またかろうじて入手できた機器・部品のアーキテクチャーが文法開発に必要なソフトウェア・ツール群の推奨環境と合わなかったこともあり,フルスクラッチに近い環境整備を強いられ,スタートアップが遅れたというのが実状である. また,漸く日本語HPSG文法解析器の基幹モジュール部分が稼働してきても,処理する文法の精緻化について討議し,助言を求めたい国内外の研究者との密なコミュニケーションも平時のようにはとることができず,理論分析においても円滑な計画の遂行が困難な状況にある.
|
今後の研究の推進方策 |
新型コロナウィルス(COVID-19)感染拡大の防止対応として渡航の制限はもとより,国内の移動も依然として制限を受けている.こうした国内外の研究者との密な連携が困難な状況下においては当初計画通りの遂行は難しい.しかしながら,同様の対応を余儀なくされている相手方の都合もあるが,今年度中に整備してきた遠隔授業環境・遠隔会議システムなどを援用することで,実施できなくなっていた外部との研究打合せや討議,情報収集を可能な限りオンラインで行っていくことを刺激に計画を前進させる. 国内外の今後の動向予測は難しいが,NINJALについては国内研究者との会合や対面打合せの機会があれば十分な感染予防対策を講じた上で参加し,また,現在運用フェーズにないことで情報収集も困難となっているDELPH-INツールのトラブルシューティングについては引き続き国外研究者とのコンタクトを試みていくことを緊要の課題に据えたい. 不十分ではあるもののスタートアップに至った日本語HPSG文法解析器の基幹モジュールは,基礎日本語文法の基本部分,とりわけ単文レベルの重要構文をシステム可読な形式文法として精緻化,拡張していく.理論的な精査は過年度に概ね完了しており,また,HPSG文法としての理論的形式化・実装も断片的には整備出来てきているので,個人の作業に帰する小規模な文法となってしまう点は否めないが,引き続き理論研究と実証研究を両輪に研究を推進していく. 過年度の大幅な研究活動の停滞によって生じてしまった計画の全体的な遅延は取り返すことはできないが,そうした中でも出来うることには臨機応変に対応しつつ,今後に繋がる一つの研究成果として結実したアウトプットを残すことを目指していくことにする.
|