• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2023 Fiscal Year Annual Research Report

Inductive re-construction of Japanese grammar and its application to Japanese language education based on the large scale extraction of Japanese formulaic sequences and its structural analyses

Research Project

Project/Area Number 20H00096
Research InstitutionTokyo University of Foreign Studies

Principal Investigator

芝野 耕司  東京外国語大学, その他部局等, 名誉教授 (50216024)

Co-Investigator(Kenkyū-buntansha) 中村 美奈子  お茶の水女子大学, 基幹研究院, 准教授 (20345408)
大津 友美  東京外国語大学, 大学院国際日本学研究院, 准教授 (20437073)
佐野 洋  東京外国語大学, 大学院総合国際学研究院, 教授 (30282776)
藤森 弘子  帝京大学, 外国語学部, 教授 (50282778)
望月 源  東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
鈴木 美加  東京外国語大学, 大学院国際日本学研究院, 教授 (90226556)
Project Period (FY) 2020-04-01 – 2025-03-31
Keywordsコーパス言語学 / N-gram分析 / 日本語定形表現 / Formulaic Sequence
Outline of Annual Research Achievements

15億語以上の大規模話し言葉コーパスを構築するとともに、日本語話し言葉における定形表現の自動抽出を、N-gramを、一文から単語単位で全N-gramを生成し、その文脈を行IDリストとして扱う独自の統合文脈単語N-gram分析をMapReduceで実現した。この独自分析法をリスト抽象化及び文字単位に拡張し、統合文脈文字Ngram分析及び隣接行列による構造分析によって、実際の言語運用に基盤を置く帰納的日本語究へと革新するとともに、この帰納的日本語理解をもとにした大規模コーパスからの日本語教材開発を目指した。
システム・評価班では,MapReduceを用いた統合文脈N-gram分析にリスト抽象化を組み込むことによって、ビッグデータ処理のためのシステム構築を行うとともに、アイデア段階であるリスト抽象化の実証を行った。また、定形表現の抽出では同一文脈に関しては最長表現を取り出す処理を行っていることから、特定の定形表現をより短い定形表現を最長一致法で分割することにより、複合定形表現と含まれる定形表現が存在しない原子定形表現とに分析した(定形表現分析)。また、定形表現の前後の連接頻度からなる定形表現隣接頻度行列を生成した。
日本語教育班では,システム・評価班が生成する基礎データである定形表現分析及び定形表現隣接頻度行列の基礎データをKey phraseとしての検討を行った。また、教材素材取り出しシステムを利用して、検証用日本語教材の開発を行った。
【問い1】昨年度はRubyからPythonへ変更を行った。今年度は、従来の単語単位から、文字単位へ統合文脈N-gram分析を拡張した。【問い2】昨年度の定形表現分割の一つずつの定形表現を中に含まれるより短い単位への分割を行い構造分析につなげた。【問い3】については、海外での日本語教育におけるニーズ調査を行う。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

システム・評価班では,MapReduceを用いた統合文脈N-gram分析にリスト抽象化を組み込むことによって、ビッグデータ処理のためのシステム構築を行うとともに、アイデア段階であるリスト抽象化の実証を行った。また、定形表現をもとにした帰納的文法研究のため、特定の定形表現をより短い定形表現を最長一致法で分割することにより、複合定形表現と含まれる定形表現が存在しない原子定形表現とに分析した(定形表現分析)。また、定形表現隣接頻度行列を生成した。同時に教材の素材となる特定の表現の存在行の前後指定した行数を取り出す教材素材取り出しシステムを開発した。
日本語教育班では,システム・評価班が生成する基礎データである定形表現分析及び定形表現隣接頻度行列の基礎データをKey phraseとしての検討を行った。また、教材素材取り出しシステムを利用して、検証用日本語教材の開発を行った。【問い1】問い1は、基本的にはシステム開発を行いアイデアを実証した。【問い2】活用のない“名詞”、活用がなく、文法機能だけを担う“助詞・助動詞”、語尾が活用する“動詞”及び“形容詞”などの基本的な品詞の同定及びその隣接条件を明らかにした。【問い3】CEFR Aレベルの検証教材の開発を行う。また、JPLANGで実装済みの現行日本語教材との比較検証を行う。また、JPLANGを利用している海外の大学の日本語学科との共同研究も検討する。
【問い1】今年度は、従来の単語単位から、文字単位へ統合文脈N-gram分析を拡張した。【問い2】昨年度の定形表現分割の一つずつの定形表現を中に含まれるより短い単位への分割を行い構造分析につなげた。【問い3】については、海外での日本語教育におけるニーズ調査を行う予定であったが、コロナ禍のため実施できなかった。

Strategy for Future Research Activity

システム・評価班では、従来のRubyをベースとするシステムからPythonベースへのシステムに移行した利点を活かし、Pythonの深層学習を含む豊富なライブラリを利用することによって、適用可能な手法が広がることを生かした検討を行う。
日本語教育班では、キーフレーズと場面・機能との対応に着目した教材の検討を行う。

  • Research Products

    (10 results)

All 2024 2023

All Journal Article (8 results) (of which Peer Reviewed: 5 results) Presentation (2 results) (of which Invited: 1 results)

  • [Journal Article] 多文化共生を目指した日本語教材開発―地域日本語教室ボランティアへの調査事例をもとに-2024

    • Author(s)
      藤森弘子・前田真紀・高村郁子
    • Journal Title

      『帝京大学国際日本学研究』紀要

      Volume: 2 Pages: 29-48

    • Peer Reviewed
  • [Journal Article] 日本語中級文型を使った上級レベル学習者の短文作成練習とフィードバック:複文・文脈処理をより円滑に行う取り組みとして2024

    • Author(s)
      鈴木美加
    • Journal Title

      東京外国語大学国際日本学研究

      Volume: 4 Pages: 127-137

    • Peer Reviewed
  • [Journal Article] 日本語指導が必要な高校生のための「国語学習活動Can-do」の開発―能力記述文の妥当性検証結果を踏まえて―2024

    • Author(s)
      飯島博子・大津友美・浜田かおり
    • Journal Title

      東京外国語大学国際日本学研究

      Volume: 4 Pages: 56^74

    • Peer Reviewed
  • [Journal Article] 日本語テレビ字幕放送データからの言語データ抽出と特徴の分析2023

    • Author(s)
      望月源
    • Journal Title

      京外国語大学論集

      Volume: 106 Pages: 85-104

    • Peer Reviewed
  • [Journal Article] BERTを用いたアニメーション字幕における談話境界推定2023

    • Author(s)
      大河原龍太朗,望月源
    • Journal Title

      教育情報システム学会第48回全国大会予稿集

      Volume: D4-I Pages: 275-276

  • [Journal Article] 2つの認知過程-量化と関係化の意味と思考様式2023

    • Author(s)
      佐野洋
    • Journal Title

      思考と言語研究会(オンライン)

      Volume: TL2023-5 Pages: 36-41

  • [Journal Article] ビジネス文書の書き方読本 ―産業日本語研究会 ライティング分科会編について2023

    • Author(s)
      佐野洋
    • Journal Title

      Japio YEAR BOOK 2023 寄稿集

      Volume: 2023 寄稿集 Pages: 272-277

  • [Journal Article] ノダ文をめぐる日中対照研究 ―中国語話者向けの日本語教育を目指して―2023

    • Author(s)
      高甜, 佐野洋
    • Journal Title

      外国語教育研究

      Volume: 26 Pages: 39-57

    • Peer Reviewed
  • [Presentation] 最大規模テレビ字幕話し言葉コーパスによる定形表現(Formulaic Sequence)自動抽出と文型、深層学習、ChatGP2023

    • Author(s)
      芝野耕司
    • Organizer
      アジア日本研究者協議会第7回国際学術大会
    • Invited
  • [Presentation] 日本語上級学習者と文型短文作成:『中級』授業での文型短文作成練習とフィードバック2023

    • Author(s)
      鈴木美加・レディン・ケヴィン
    • Organizer
      東アジア日本研究者協議会第7回国際学術大会

URL: 

Published: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi