Research Abstract |
本研究は,言語モデルの設計及び大規模言語データの収集といった理論言語学と計算言語学の両分野が得意とする手法を,結合範疇文法(Combinatory Categorial Grammar : CCG)の上で組み合わせ,言語学的に裏づけられた日本語文法・コーパスといった言語資源の効率的な開発を目指しており,平成22年度は,次の三つの課題に取り組んだ. 1. 新聞記事コーパスからの語彙項目抽出プログラムの作成 2. 統語と談話・意味・音韻のインターフェースに関する理論的研究 3. 統語的・語彙的制約の記述に着目した言語情報の形式化に関する理論的研究 1 については,前年度後半から着手しているが,まとまった成果を発表するに至っていない. 2 では助詞・マーカ,3では補助動詞と分類される範疇について,それぞれ焦点・主題,複合述語といった日本語の頻出かつ重要な現象に関し,詳細な語彙項目の記述を試み,精緻な理論的説明を提示した. 新聞記事に,また日本語に限ったことではないが,焦点・主題という情報は,自然言語の文集合を結束した一つのテキストとして成り立たせている重要な言語情報である.2の研究は,特にハ・ガの分布,機能に着目し,それらがマークする構成素の文中における談話・意味的役割の説明を,局所的制約の記述として与えたことに意義がある. 3 では,単文において,文を長くかつ複雑にする複合述語に関して,一見,言語情報の局所性に反するかのように思われる構文の多元的制約を厳密に形式化した.特に,補助動詞テヤルを含む構文に関する現象を取り上げて分析し,従来の日本語理論分析とは異なる,表層構成性に基づく新しい分析を打ち出した。 これら二つの分析は,従来の計算言語学的アプローチが,日本語の単なる主辞後置性として簡略化,捨象していた言語情報の形式化と異なり,主辞にもとづく語彙化文法の制約のもと,多元的言語情報の制約として,実装に適した見通しのよい形式化を行った点に特徴があり,その成果は国際学会で発表され,論文集に収録された.
|