| Project/Area Number |
20H00096
|
| Research Category |
Grant-in-Aid for Scientific Research (A)
|
| Allocation Type | Single-year Grants |
| Section | 一般 |
| Review Section |
Medium-sized Section 9:Education and related fields
|
| Research Institution | Tokyo University of Foreign Studies |
Principal Investigator |
Shibano Kohji 東京外国語大学, その他部局等, 名誉教授 (50216024)
|
| Co-Investigator(Kenkyū-buntansha) |
中村 美奈子 お茶の水女子大学, 基幹研究院, 准教授 (20345408)
大津 友美 東京外国語大学, 大学院国際日本学研究院, 教授 (20437073)
佐野 洋 東京外国語大学, 大学院総合国際学研究院, 教授 (30282776)
藤森 弘子 帝京大学, 外国語学部, 教授 (50282778)
望月 源 東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
鈴木 美加 東京外国語大学, 大学院国際日本学研究院, 教授 (90226556)
時田 朋子 実践女子大学, 人間社会学部, 講師 (00563355)
藤村 知子 東京外国語大学, 大学院国際日本学研究院, 教授 (20229040)
|
| Project Period (FY) |
2020-04-01 – 2025-03-31
|
| Project Status |
Completed (Fiscal Year 2024)
|
| Budget Amount *help |
¥42,510,000 (Direct Cost: ¥32,700,000、Indirect Cost: ¥9,810,000)
Fiscal Year 2024: ¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥7,930,000 (Direct Cost: ¥6,100,000、Indirect Cost: ¥1,830,000)
Fiscal Year 2022: ¥7,150,000 (Direct Cost: ¥5,500,000、Indirect Cost: ¥1,650,000)
Fiscal Year 2021: ¥12,870,000 (Direct Cost: ¥9,900,000、Indirect Cost: ¥2,970,000)
Fiscal Year 2020: ¥10,400,000 (Direct Cost: ¥8,000,000、Indirect Cost: ¥2,400,000)
|
| Keywords | コーパス言語学 / 日本語定形表現 / N-gram分析 / Formulaic Sequence / 日本語話し言葉コーパス / 定形表現機 / 機能的日本語文法 / 統合文脈N-gram分析 / 決まり文句 / Formulaic Sequence」 / 定形表現 / 帰納的日本語文法 / N-gram |
| Outline of Research at the Start |
コーパス言語学やビッグデータ処理の成果を言語教育に活かすため、世界最大規模日本語話し言葉コーパスを構築するとともに、統合文脈N-gram分析により定形表現(Formulaic Sequences)の自動抽出を実現した。 この研究では、MapReduceに加えて、膨大な文脈を表現する行IDリストにリスト抽象化を行うことによって、(1)対象N-gramの最大を7を超える文全体に拡張し、N-gramの分析単位を形態素ではなく文字とすること、及び(2)定形表現の隣接行列分析による構造分析をもとに帰納的に日本語文法を再構築し、(3)これらの成果による革新的な日本語教育法及び日本語教材を開発することを目指す
|
| Outline of Final Research Achievements |
We have constructed a large-scale spoken language corpus of over 1.5 billion words, and have realized the automatic extraction of fixed expressions in spoken Japanese, using MapReduce to generate all N-grams from a sentence on a word-by-word basis, and to perform a unique integrated context word N-gram analysis that treats the context as a row ID list. We have expanded this unique analysis method to list abstraction and character-by-character, and through integrated context character N-gram analysis and structural analysis using adjacency matrices, we aim to revolutionize inductive Japanese language research based on actual language usage, and to develop Japanese language teaching materials from a large-scale corpus based on this inductive understanding of Japanese.
|
| Academic Significance and Societal Importance of the Research Achievements |
この研究では従来の欧米での研究をもとにした演繹的文法研究とそれの基づく日本語教育法から独自開発の大規模日本語話し言葉コーパスをもとにした独自の分析方法である結合文脈文字N-gram分析をもとにした隣接行及び構造分析によって言語運用に基づく帰納的日本語研究へと革新するとともに大規模日本語話し言葉コーパスからの日本語教材開発を行った。 この研究によって、我が国日本語教育の革新を目指している。
|