2021 Fiscal Year Annual Research Report
Inductive re-construction of Japanese grammar and its application to Japanese language education based on the large scale extraction of Japanese formulaic sequences and its structural analyses
Project/Area Number |
20H00096
|
Research Institution | Tokyo University of Foreign Studies |
Principal Investigator |
芝野 耕司 東京外国語大学, その他部局等, 名誉教授 (50216024)
|
Co-Investigator(Kenkyū-buntansha) |
時田 朋子 実践女子大学, 人間社会学部, 講師 (00563355)
藤村 知子 東京外国語大学, 大学院国際日本学研究院, 教授 (20229040)
中村 美奈子 お茶の水女子大学, 基幹研究院, 准教授 (20345408)
大津 友美 東京外国語大学, 大学院国際日本学研究院, 准教授 (20437073)
佐野 洋 東京外国語大学, 大学院総合国際学研究院, 教授 (30282776)
藤森 弘子 帝京大学, 外国語学部, 教授 (50282778)
望月 源 東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
鈴木 美加 東京外国語大学, 大学院国際日本学研究院, 教授 (90226556)
|
Project Period (FY) |
2020-04-01 – 2025-03-31
|
Keywords | コーパス言語学 / N-gram分析 / 日本語定形表現 / Formulaic Sequence |
Outline of Annual Research Achievements |
これまで字幕付き地デジテキストを収集し、15億語以上の大規模話し言葉コーパスを構築するとともに、日本語話し言葉における定形表現の自動抽出を、情報学の始祖のShannon(1946)以来gramごとに扱われていたN-gramを、一文から単語単位で全N-gramを生成し、その文脈を行IDリストとして扱う独自の統合文脈単語N-gram分析をMapReduceで実現した。この独自分析法をリスト抽象化及び文字単位に拡張し、統合文脈文字N-gram分析及び隣接行列による構造分析によって、従来の欧米での文法理論の演繹的適用を中心とする日本語文法研究を、実際の言語運用に基盤を置く帰納的日本語研究へと革新するとともに、この帰納的日本語理解をもとにした大規模コーパスからの日本語教材開発を可能とするところに独自性および創造性がある。 システム・評価班では,MapReduceを用いた統合文脈N-gram分析にリスト抽象化を組み込むことによって、ビッグデータ処理のためのシステム構築を行うとともに、アイデア段階であるリスト抽象化の実装を行った。また、定形表現をもとにした帰納的文法研究のため、定形表現の抽出では同一文脈に関しては最長表現を取り出す処理を行っていることから、特定の定形表現をより短い定形表現を最長一致法で分割することにより、複合定形表現と含まれる定形表現が存在しない原子定形表現とに分析した(定形表現分析)。 また、定形表現隣接頻度行列を生成し、教材の素材となる特定の表現の存在行の前後指定した行数を取り出す教材素材取り出しシステムを開発した。 日本語教育班では, Key phraseとしての検討を行った。活用のない“名詞”、活用がなく、文法機能だけを担う“助詞・助動詞”、語尾が活用する“動詞”及び“形容詞”などの基本的な品詞の同定及びその隣接条件の検討を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
システム・評価班では,MapReduceを用いた統合文脈N-gram分析にリスト抽象化を組み込むことによって、N-gramの最大値の制限をなくすためのプログラム開発及びビッグデータ処理のためのシステム構築を行うとともに、アイデア段階であるリスト抽象化の実証を行った。また、定形表現をもとにした帰納的文法研究のため、定形表現の抽出では同一文脈に関しては最長表現を取り出す処理を行っていることから、特定の定形表現をより短い定形表現を最長一致法で分割することにより、複合定形表現と含まれる定形表現が存在しない原子定形表現とに分析した(定形表現分析)。また、定形表現の前後の連接頻度からなる定形表現隣接頻度行列を生成する。同時に教材の素材となる特定の表現の存在行の前後指定した行数を取り出す教材素材取り出しシステムを開発した。 日本語教育班では,システム・評価班が生成する基礎データである定形表現分析及び定形表現隣接頻度行列の基礎データをKey phraseとしての検討及び日本語教育用文法の帰納的検討を行った。また、Key phraseとして適当かの検討を行った。また、教材素材取り出しシステムを利用して、検証用日本語教材の検討を行った。 基本的には、活用のない“名詞”、活用がなく、文法機能だけを担う“助詞・助動詞”、語尾が活用する“動詞”及び“形容詞”などの基本的な品詞の同定及びその隣接条件の検討を行った。。海外の大学の日本語学科との共同研究はコロナ禍のため実施できなかった。
|
Strategy for Future Research Activity |
コロナ禍のため海外の研究機関との共同研究ができなかったので、今後はこの点を中心に推進する。
|
Research Products
(10 results)