研究課題/領域番号 |
19K00593
|
研究機関 | 東北大学 |
研究代表者 |
吉本 啓 東北大学, 高度教養教育・学生支援機構, 教授 (50282017)
|
研究分担者 |
森 芳樹 東京大学, 大学院総合文化研究科, 教授 (30306831)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | コーパス / 統語論 / 日本語 / テンス / アスペクト / 主語 / 主題 / スコープ |
研究実績の概要 |
国立国語研究所共同研究プロジェクトで開発している日本語コーパス NINJAL Parsed Corpus of Modern Japanese (NPCMJ) は、日本語としては初めての、本格的な統語解析情報をタグ付けされた、公開されたコーパスである。これまでの形態素情報を中心とするコーパスとは異なり、NPCMJ は構文パターンにもとづく例文の検索を可能にすることから、日本語文法研究者を中心として支持を得、使用が広がっている。 NPCMJ のアノテーションの基礎に立って、それぞれの研究者が自分自身のための言語データベースやコーパスを構築すことが出来る。これらが公開されて学会全体に貢献する、というような研究の広がりが望ましい姿である。本研究はそのようなことを視野に入れながら、テンス・アスペクト、複文における主語・主題の継承、および否定のスコープ、という3つのテーマを取り上げて小規模コーパスを試作することを課題としている。 本年度は昨年度の検討を受けて、一定量のテクストに対して実際にテンス・アスペクト情報のタグ付けを行った。日英対照テクストが利用可能という観点から「ピーター・ラビットの冒険」を取り上げ、全文に対してテンス・アスペクト情報のアノテーションを施した。その結果、提案した方法により均質的で一貫したアノテーションが可能であることを確認した。判明した問題点の考察も含めて、1月に出た論文集の1つの章として出版した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
今回行ったテンス・アスペクト情報のアノテーションは、Ph. D. 論文の執筆以来研究してきた Discourse Representation Theory (DRT) にもとづいて行った。通常の述語論理式では文ごとにスコープが設定さてしまい、テンスやアスペクトのような文脈的要因のかかわる表現の意味表示においては障害を生じる。これに対し、DRT はスコープの問題が生じず、本研究におけるアノテーションに適している。DRT を日本語に適用するには大小いくつかの問題があったが、今回のアノテーションを通じて解決することが出来た。
|
今後の研究の推進方策 |
日本語のテンス・アスペクト表現につき、DRT にもとづいて、言語学研究者にとって有意義で一貫性のあるアノテーションが可能であることを示すことができた。次年度はこの成果にもとづき、DRT によりテンス・アスペクトに意味をより正確に表現できるよう改良を加える。 さらに、他研究者の協力を得て、同一テクストの中国語・英語・ロシア語の翻訳に対して同一の方法によるタグ付けを試みる。これが成功すれば、テンス・アスペクト表現の対照研究や類型論研究において大きな貢献を与えることが出来る。
|
次年度使用額が生じた理由 |
コロナ禍の状況の下で、出張ができず、また人との接触が困難なことから、人件費としての使用にも支障が生じたため。次年度は人件費として計画的に使用する予定である。
|