2020 Fiscal Year Annual Research Report
Inductive re-construction of Japanese grammar and its application to Japanese language education based on the large scale extraction of Japanese formulaic sequences and its structural analyses
Project/Area Number |
20H00096
|
Research Institution | Tokyo University of Foreign Studies |
Principal Investigator |
芝野 耕司 東京外国語大学, その他部局等, 名誉教授 (50216024)
|
Co-Investigator(Kenkyū-buntansha) |
佐野 洋 東京外国語大学, 大学院総合国際学研究院, 教授 (30282776)
望月 源 東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
中村 美奈子 お茶の水女子大学, 基幹研究院, 准教授 (20345408)
藤村 知子 東京外国語大学, 大学院国際日本学研究院, 教授 (20229040)
藤森 弘子 帝京大学, 外国語学部, 教授 (50282778)
大津 友美 東京外国語大学, 大学院国際日本学研究院, 准教授 (20437073)
鈴木 美加 東京外国語大学, 大学院国際日本学研究院, 教授 (90226556)
時田 朋子 実践女子大学, 人間社会学部, 講師 (00563355)
|
Project Period (FY) |
2020-04-01 – 2025-03-31
|
Keywords | コーパス言語学 / N-gram / Formulaic Sequence / 日本語定形表現 |
Outline of Annual Research Achievements |
コーパス言語学やビッグデータ処理の成果を言語教育に活かすため、世界最大規模の日本語話し言葉コーパスを構築するとともに、統合文脈N-gram分析により定形表現(Formulaic Sequences)の自動抽出を実現した。 この研究では、MapReduceに加えて、膨大な文脈を表現する行IDリストにリスト抽象化を行うことによって、(1)対象N-gramの最大を7を超える文全体に拡張し、N-gramの分析単位を形態素ではなく文字とすること、MapReduceを用いた統合文脈N-gram分析にリスト抽象化を組み込むことによって、N-gramの最大値の制限をなくすためのプログラム開発及びビッグデータ処理のためのシステム構築を行うとともに、アイデア段階であるリスト抽象化の実証を行った。(2)定形表現の隣接行列分析による構造分析をもとに帰納的に日本語文法を再構築し、また、定形表現をもとにした帰納的文法研究のため、定形表現の抽出では同一文脈に関しては最長表現を取り出す処理を行っていることから、特定の定形表現をより短い定形表現を最長一致法で分割することにより、複合定形表現と含まれる定形表現が存在しない原子定形表現とに分析した(定形表現分析)。(3)これらの成果による革新的な日本語教育法及び日本語教材を開発することを目指した。 しかし、コロナ禍のため、海外の研究機関との共同研究を行うことはできなかった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
システム・評価班では,MapReduceを用いた統合文脈N-gram分析にリスト抽象化を組み込むことによって、N-gramの最大値の制限をなくすためのプログラム開発及びビッグデータ処理のためのシステム構築を行うとともに、アイデア段階であるリスト抽象化の実証を行った。また、定形表現をもとにした帰納的文法研究のため、定形表現の抽出では同一文脈に関しては最長表現を取り出す処理を行っていることから、特定の定形表現をより短い定形表現を最長一致法で分割することにより、複合定形表現と含まれる定形表現が存在しない原子定形表現とに分析した(定形表現分析)。また、定形表現の前後の連接頻度からなる定形表現隣接頻度行列を生成する。同時に教材の素材となる特定の表現の存在行の前後指定した行数を取り出す教材素材取り出しシステムを開発する。 日本語教育班では,システム・評価班が生成する基礎データである定形表現分析及び定形表現隣接頻度行列の基礎データをKey phraseとしての検討及び日本語教育用文法の帰納的研究を行う。こうして得られる規則が日本語教育での文型なり、Key phraseとして適当化の検討を行った。また、教材素材取り出しシステムを利用して、検証用日本語教材の開発を行う。研究期間中には、各【問い】について、次の点までの明らかにする。 【問い1】問い1は、基本的にはシステム開発であり、実際にプログラム開発を含むシステム構築を行い、アイデアを実証するためのシステム設計を行った。 【問い2】この問いは、帰納的文法研究であり、基本的には、活用のない“名詞”、活用がなく、文法機能だけを担う“助詞・助動詞”、語尾が活用する“動詞”及び“形容詞”などの基本的な品詞の同定及びその隣接条件を明らかにする。本年度は定形表現のさらなる検証を行った。 【問い3】海外の大学の日本語学科との共同研究も検討する。
|
Strategy for Future Research Activity |
コロナ禍のため、海外の大学との共同研究を推進することができなかったが、2023年になってやっとコロナ禍が過ぎ去ったため、海外との共同研究の推進を検討することとする。
|
Research Products
(4 results)