研究課題/領域番号 |
20H00096
|
研究種目 |
基盤研究(A)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
中区分9:教育学およびその関連分野
|
研究機関 | 東京外国語大学 |
研究代表者 |
芝野 耕司 東京外国語大学, その他部局等, 名誉教授 (50216024)
|
研究分担者 |
中村 美奈子 お茶の水女子大学, 基幹研究院, 准教授 (20345408)
大津 友美 東京外国語大学, 大学院国際日本学研究院, 准教授 (20437073)
佐野 洋 東京外国語大学, 大学院総合国際学研究院, 教授 (30282776)
藤森 弘子 帝京大学, 外国語学部, 教授 (50282778)
望月 源 東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
鈴木 美加 東京外国語大学, 大学院国際日本学研究院, 教授 (90226556)
時田 朋子 実践女子大学, 人間社会学部, 講師 (00563355)
藤村 知子 東京外国語大学, 大学院国際日本学研究院, 教授 (20229040)
|
研究期間 (年度) |
2020-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
42,510千円 (直接経費: 32,700千円、間接経費: 9,810千円)
2024年度: 4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2023年度: 7,930千円 (直接経費: 6,100千円、間接経費: 1,830千円)
2022年度: 7,150千円 (直接経費: 5,500千円、間接経費: 1,650千円)
2021年度: 12,870千円 (直接経費: 9,900千円、間接経費: 2,970千円)
2020年度: 10,400千円 (直接経費: 8,000千円、間接経費: 2,400千円)
|
キーワード | 日本語話し言葉コーパス / 定形表現機 / 機能的日本語文法 / 統合文脈N-gram分析 / コーパス言語学 / N-gram分析 / 日本語定形表現 / Formulaic Sequence / 決まり文句 / Formulaic Sequence」 / 定形表現 / 帰納的日本語文法 / N-gram |
研究開始時の研究の概要 |
コーパス言語学やビッグデータ処理の成果を言語教育に活かすため、世界最大規模日本語話し言葉コーパスを構築するとともに、統合文脈N-gram分析により定形表現(Formulaic Sequences)の自動抽出を実現した。 この研究では、MapReduceに加えて、膨大な文脈を表現する行IDリストにリスト抽象化を行うことによって、(1)対象N-gramの最大を7を超える文全体に拡張し、N-gramの分析単位を形態素ではなく文字とすること、及び(2)定形表現の隣接行列分析による構造分析をもとに帰納的に日本語文法を再構築し、(3)これらの成果による革新的な日本語教育法及び日本語教材を開発することを目指す
|
研究実績の概要 |
15億語以上の大規模話し言葉コーパスを構築するとともに、日本語話し言葉における定形表現の自動抽出を、N-gramを、一文から単語単位で全N-gramを生成し、その文脈を行IDリストとして扱う独自の統合文脈単語N-gram分析をMapReduceで実現した。この独自分析法をリスト抽象化及び文字単位に拡張し、統合文脈文字Ngram分析及び隣接行列による構造分析によって、実際の言語運用に基盤を置く帰納的日本語究へと革新するとともに、この帰納的日本語理解をもとにした大規模コーパスからの日本語教材開発を目指した。 システム・評価班では,MapReduceを用いた統合文脈N-gram分析にリスト抽象化を組み込むことによって、ビッグデータ処理のためのシステム構築を行うとともに、アイデア段階であるリスト抽象化の実証を行った。また、定形表現の抽出では同一文脈に関しては最長表現を取り出す処理を行っていることから、特定の定形表現をより短い定形表現を最長一致法で分割することにより、複合定形表現と含まれる定形表現が存在しない原子定形表現とに分析した(定形表現分析)。また、定形表現の前後の連接頻度からなる定形表現隣接頻度行列を生成した。 日本語教育班では,システム・評価班が生成する基礎データである定形表現分析及び定形表現隣接頻度行列の基礎データをKey phraseとしての検討を行った。また、教材素材取り出しシステムを利用して、検証用日本語教材の開発を行った。 【問い1】昨年度はRubyからPythonへ変更を行った。今年度は、従来の単語単位から、文字単位へ統合文脈N-gram分析を拡張した。【問い2】昨年度の定形表現分割の一つずつの定形表現を中に含まれるより短い単位への分割を行い構造分析につなげた。【問い3】については、海外での日本語教育におけるニーズ調査を行う。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
システム・評価班では,MapReduceを用いた統合文脈N-gram分析にリスト抽象化を組み込むことによって、ビッグデータ処理のためのシステム構築を行うとともに、アイデア段階であるリスト抽象化の実証を行った。また、定形表現をもとにした帰納的文法研究のため、特定の定形表現をより短い定形表現を最長一致法で分割することにより、複合定形表現と含まれる定形表現が存在しない原子定形表現とに分析した(定形表現分析)。また、定形表現隣接頻度行列を生成した。同時に教材の素材となる特定の表現の存在行の前後指定した行数を取り出す教材素材取り出しシステムを開発した。 日本語教育班では,システム・評価班が生成する基礎データである定形表現分析及び定形表現隣接頻度行列の基礎データをKey phraseとしての検討を行った。また、教材素材取り出しシステムを利用して、検証用日本語教材の開発を行った。【問い1】問い1は、基本的にはシステム開発を行いアイデアを実証した。【問い2】活用のない“名詞”、活用がなく、文法機能だけを担う“助詞・助動詞”、語尾が活用する“動詞”及び“形容詞”などの基本的な品詞の同定及びその隣接条件を明らかにした。【問い3】CEFR Aレベルの検証教材の開発を行う。また、JPLANGで実装済みの現行日本語教材との比較検証を行う。また、JPLANGを利用している海外の大学の日本語学科との共同研究も検討する。 【問い1】今年度は、従来の単語単位から、文字単位へ統合文脈N-gram分析を拡張した。【問い2】昨年度の定形表現分割の一つずつの定形表現を中に含まれるより短い単位への分割を行い構造分析につなげた。【問い3】については、海外での日本語教育におけるニーズ調査を行う予定であったが、コロナ禍のため実施できなかった。
|
今後の研究の推進方策 |
システム・評価班では、従来のRubyをベースとするシステムからPythonベースへのシステムに移行した利点を活かし、Pythonの深層学習を含む豊富なライブラリを利用することによって、適用可能な手法が広がることを生かした検討を行う。 日本語教育班では、キーフレーズと場面・機能との対応に着目した教材の検討を行う。
|