Study of the hierarchical sentence structure of Japanese based on the corpus with syntactic and semantic information
Project/Area Number |
22K00524
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 02060:Linguistics-related
|
Research Institution | Tohoku University |
Principal Investigator |
吉本 啓 東北大学, 高度教養教育・学生支援機構, 名誉教授 (50282017)
|
Co-Investigator(Kenkyū-buntansha) |
森 芳樹 東京大学, 大学院総合文化研究科, 教授 (30306831)
バトラー アラステア 弘前大学, 人文社会科学部, 准教授 (90588873)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥3,380,000 (Direct Cost: ¥2,600,000、Indirect Cost: ¥780,000)
Fiscal Year 2024: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2022: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
Keywords | コーパス / 日本語 / 文の階層 / 統語論 / 意味論 / ツリーバンク / 複文 |
Outline of Research at the Start |
日本語の文のもっとも基本的な構造であるとされる文階層構造を、統語・意味解析情報付きコーパス NPCMJ によって検証することを目的とする。コーパスにおける文構成要素間の共起関係を調査することを通じて階層の分類基準を明らかにし、さらにそれにもとづいて日本語文解析・生成システムを提案する。さらに、複文の主語継承とテンス解釈という具体的事例を取り上げて上記の文解析・生成システムを検証し、必要に応じて修正や拡張を行う。
|
Outline of Annual Research Achievements |
本研究では、統語・意味解析情報付きコーパスを利用して、大量のデータにもとづいて日本語の文の階層性を検証し、その成果を文解析・生成システムとしてモデル化することを目的とする。応募者らが開発を行ってきたかいのきツリーバンクは、日本語として初めての、本格的な文統語・意味解析情報を有するコーパスである。これを利用して、テクスト中の文における語句の共起関係の検索を行い、階層表現の実態に即した分類基準を提案することを研究課題としている。 具体的には、尾上 (1999) により明らかにされた、階層の3つの分類基準に従ってかいのきツリーバンクを検索し、関連する語句の実際の分布について把握を試みる。また、その結果の実装として、文階層形成にもとづく日本語文解析・生成システムを構築する。さらに、複文における主節-従属節間の主語の継承およびテンス解釈依存の問題に関して、コーパス調査等を通じて実情を解明した上で、規則を上記の文解析・生成システムに組み込むことでモデル化を行うことも課題としている。 今年度は、複文構文の一部を取り上げ、その検索によって、テンス表示の分布とそのテンス解釈の規則の明確化を行った。その結果、上位の階層から下位へのテンス情報の継承を裏付ける言語データをその例外とともに、非単調的な推論規則のシステムとして説明できることが分かった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
今年度は、かいのきツリーバンクの中の作例と翻訳を除く57,705文の中からノデ/カラ従属節を伴う文を主節・従属節の非タ形/タ形ごとに抽出して分析を加え、階層ごとのテンス情報の導入という文法モデルによりデータの説明が可能か否かについて検討を行った。 まず、タ形-ノデ/カラ-タ形の構文について、従属節述語が動作的であるものはすべて主節成立時以前の成立である。状態述語は大部分が主節成立時と同時だが、少数ながら主節成立時以前のものもある。 非タ形-ノデ/カラ-タ形の構文では、従属節述語の大部分は事実上状態的で、その成立時は主節と同時である。従属節述語が動作的で時間的幅を持たず、主節成立時以降を表すものはごく少数である。 また、主節述語が動作的で非タ形であるものについては、一種のモーダルとすることにより、従属節テンス解釈の基準時を他のケースと同様に主節成立時とできることを示した。 全体として、文のテンス解釈においてテンス情報が上位の階層から下位へと継承されるという非単調的な処理システムを言語データの解析により裏付けることができた。
|
Strategy for Future Research Activity |
今後は、文構成要素間の共起関係の調査を通じた日本語の文の成り立ちのメカニズムの解明に取り組む。そのために、まず、尾上 (1999) の挙げる3つの異なる階層分類基準に従って かいのきツリーバンクを検索し、関連する語句の実際の分布について把握を行う。ここで取り上げる語句の大部分は機能語 (助詞、助動詞等) により構成されるので、統語解析情報付きコーパスの自動検索が効力を発揮し、分析の多くは短時間で行われると思われる。しかし、分析対象には副詞等も含むため、人手による仕分けも必要である。結果を検討し、語句の分布を最もよく説明する分類基準を提案する。分類基準を必要により細分化し、最適な組み合わせを考える。しかし、硬直した規則を設定するのではなく、語彙意味・文法情報と文脈とのインタフェースとして働く生きた階層構造の生態の解明を目指す。 複文の主語継承およびテンス解釈に関しても、さらにツリーバンクにもとづく調査を行う。主語の一致については、検索によりかなり良質のデータが得られることが期待される。それにもとづいて従属節による主語継承の規則を定式化する。テンスに関しては、ツリーバンク検索結果の精査を進め、実態をもっともよく説明する複文テンス解釈規則を考察する。
|
Report
(1 results)
Research Products
(10 results)