研究課題/領域番号 |
22K00524
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分02060:言語学関連
|
研究機関 | 東北大学 |
研究代表者 |
吉本 啓 東北大学, 高度教養教育・学生支援機構, 名誉教授 (50282017)
|
研究分担者 |
森 芳樹 東京大学, 大学院総合文化研究科, 教授 (30306831)
バトラー アラステア 弘前大学, 人文社会科学部, 准教授 (90588873)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
3,380千円 (直接経費: 2,600千円、間接経費: 780千円)
2024年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2023年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円)
2022年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
|
キーワード | コーパス / 日本語 / 文の階層 / 統語論 / 意味論 / ツリーバンク / 複文 / テンス |
研究開始時の研究の概要 |
日本語の文のもっとも基本的な構造であるとされる文階層構造を、統語・意味解析情報付きコーパス NPCMJ によって検証することを目的とする。コーパスにおける文構成要素間の共起関係を調査することを通じて階層の分類基準を明らかにし、さらにそれにもとづいて日本語文解析・生成システムを提案する。さらに、複文の主語継承とテンス解釈という具体的事例を取り上げて上記の文解析・生成システムを検証し、必要に応じて修正や拡張を行う。
|
研究実績の概要 |
南 (1974) の日本語文階層説は、日本語の文の成り立ちを統一的に説明する理論として評価され、多くの検証や応用研究がなされてきた。一定量のデータを用いた理論の実証も試みられているが、大規模なコーパスにもとづく総合的な解明はいまだなされていない。吉本らは、国立国語研究所共同研究プロジェクトにおいて、日本語として初めての、本格的な文統語・意味解析情報を有するコーパスである NINJAL Parsed Corpus of Modern Japanese / かいのきツリーバンク(以下、かいのきTB)の開発を行った。構文による用例検索を可能にするかいのきTBを用いて、日本語文の階層構造の全体像を解明することが本研究の目的である。また、日本語の文の構成に関する包括的な仮説である文階層説の研究を進めることにより、複文を含む日本語の文の統語構造・意味情報の総体についても認識を深めることができる。 本年度は前年度の研究を継続して複文を取り上げ、ノデ/カラ従属節を伴う複文におけるテンスの表示と意味の分布について、かいのきTBの検索を通じて調査を行った。検索により得られたデータを検討した結果、ディフォールト規則としてノデ/カラ従属節をB類従属節とし、従属節述語のテンス計算の基準時を主節述語成立時とする一方、これによりカバーできない、少数の例外の扱いも必要であることが分かった。これにより得られた、上位階層から下位階層へのテンス情報継承のデータをその例外とともに説明する非単調的な論理推論モデルを提案した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
前年度の研究を継続し、ノデ/カラ従属節を伴う文を従属節および主節の非タ形/タ形ごとに抽出して調査を行った。これを踏まえ、階層ごとのテンス情報の導入と語彙的なテンス情報(状態述語・動作述語および非タ形/タ形)との組み合わせにより文のテンス情報を合成する非単調的論理推論システムを提案した。 これにより、ノデ/カラ従属節の述語はディフォールトとしてB節述語とされ、従属節基準時(非タ形/タ形のテンス解釈のための基準)は主節成立時に一致するので、大多数の用例が説明される。従属節述語が非タ形の場合(例:私が黙っているので、彼はもう一度同じことを繰返した)、従属節と主節の成立時は重複することになる。他方、少数ながら、従属節非タ形述語の成立時が発話時と重複するものも見られる(例:今の正式名称があまりにも長いので、略して女川フォールドセンターと呼ぶようになりました)。このような例においては、発話時を表す時間副詞句等が明示的に出現することから、従属節はB節でありえず、例外的にC節とされた結果、従属節基準時が発話時と一致するのだと考える。この他にも述語タ形の意味にもディフォールト以外に条件次第で例外的な意味を認め、用例を全般をカバーするテンス意味推論システムを構築した。
|
今後の研究の推進方策 |
日本語文の階層構造の実態解明を遅らせている大きな要因は、文構成要素の4階層への分類に当たって、どのような分類基準を採用するかによって結果が大きく異なることにあると考えられる。分類基準としては、これまでに、(1) 異なる種類の従属節間の包含可能性、(2) 異なる種類の従属節内部における述語以外の文構成要素の生起可能性、(3) 異なる種類の従属節内部における述語構成要素の生起可能性、の3つが行われてきた。 コーパスのデータ検索によってこれらの点に関する語句の種類ごとの分布を明らかにし、分類基準を明確にする必要がある。かいのきTBを使用することにより、数万文についての調査の大部分を短時間で行うことが可能になる。この結果を踏まえ、分類の精緻化を行い、また統計的手法も導入して、階層性にもとづく日本語文解析・生成の形式的モデルを提案する。 複文において従属節の主語やテンスの解釈が主節のそれに依存するかどうかという問題についても、かいのきTBの検索を通じた解明が期待できる。上記のように、ノデ/カラ従属節を伴う複文のテンス意味の非単調論理推論システムを提案済みである。他の種類の従属節を含む複文についてこれを検討し、理論の更新を図る。また、ナガラ従属節の主語継承についても、すでに共同研究によって成果を蓄積しつつあるので、これをさらに発展させて主語解釈の一般モデルを提案する。
|