2009 Fiscal Year Annual Research Report
コーパスからの語彙項目抽出による大規模な日本語結合範疇文法の構築
Project/Area Number |
21500152
|
Research Institution | Osaka Gakuin University |
Principal Investigator |
大谷 朗 Osaka Gakuin University, 情報学部, 准教授 (50283817)
|
Keywords | 言語モデル / 大規模言語データ / 理論言語学 / 計算言語学 / 結合範疇文法 / コーパス / 認識動詞 / 表層構成性 |
Research Abstract |
本研究は,言語モデルの設計及び大規模言語データの収集といった理論言語学と計算言語学の両分野が得意とする手法を,結合範疇文法(Combinatory Categorial Grammar : CCG)の上で組み合わせ,言語学的に裏づけられた日本語文法・コーパスといった言語資源の効率的な開発を目指しており,平成21年度は,次の二つの課題に取り組んだ. 1.CCG基づく統語と意味のインターフェースに関する理論的研究 2.EDRコーパスからのCCGの語彙項目・文法の抽出 2については今年度後半に着手したために,作業途上であるが,前半から取り組んでいた1については,海外のCCG研究者の協力を得ることで研究が進展し,国際会議で成果を発表するに至った. 新聞記事に,また日本語に限ったことではないが,文が長くなる要因の一つとして重文・複文構造があげられる. そこで,本研究における上述1の理論面の具体的な課題として,以下の二点に問題を絞り,複文構造に関する言語情報の理論的形式化について検討した. a. 複文の構成要素と考えるべき名詞句が,主文の構成要素であるかのように振舞う統語的問題 (依存関係の交差を許してしまうと、妥当な時間で解析可能な文脈自由規則に文法が収まらない.) b. 構文全体の意味が,補文の表す命題に関して閉じていない意味的問題 (構成的意味論の局所性に反してしまうと,統語と意味の間の準同型写像関係が成立しない.) 一見,言語情報の局所性に反するかのように思われるa,bをCCGに基づいて厳密に形式化することは,精細な文法を記述する上でも必須である.そうした理由から,本研究では具体例として日本語認識動詞(Epistemic Verb)「思う」に関する現象を取り上げて分析し,従来の日本語分析とは異なる,表層構成性に基づく新しい分析を打ち出し,発表した成果を論文としてまとめた.
|
Research Products
(2 results)