大規模日本語定型表現抽出と構造分析による帰納的文法再構築及び日本語教育への応用

研究課題

研究課題/領域番号	20H00096
研究種目	基盤研究(A)
配分区分	補助金
応募区分	一般
審査区分	中区分9:教育学およびその関連分野
研究機関	東京外国語大学
研究代表者	芝野耕司東京外国語大学, その他部局等, 名誉教授 (50216024)
研究分担者	中村美奈子お茶の水女子大学, 基幹研究院, 准教授 (20345408) 大津友美東京外国語大学, 大学院国際日本学研究院, 准教授 (20437073) 佐野洋東京外国語大学, 大学院総合国際学研究院, 教授 (30282776) 藤森弘子帝京大学, 外国語学部, 教授 (50282778) 望月源東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707) 鈴木美加東京外国語大学, 大学院国際日本学研究院, 教授 (90226556) 時田朋子実践女子大学, 人間社会学部, 講師 (00563355) 藤村知子東京外国語大学, 大学院国際日本学研究院, 教授 (20229040)
研究期間 (年度)	2020-04-01 – 2025-03-31
研究課題ステータス	交付 (2024年度)
配分額 *注記	42,510千円 (直接経費: 32,700千円、間接経費: 9,810千円) 2024年度: 4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2023年度: 7,930千円 (直接経費: 6,100千円、間接経費: 1,830千円) 2022年度: 7,150千円 (直接経費: 5,500千円、間接経費: 1,650千円) 2021年度: 12,870千円 (直接経費: 9,900千円、間接経費: 2,970千円) 2020年度: 10,400千円 (直接経費: 8,000千円、間接経費: 2,400千円)
キーワード	日本語話し言葉コーパス / 定形表現機 / 機能的日本語文法 / 統合文脈N-gram分析 / コーパス言語学 / N-gram分析 / 日本語定形表現 / Formulaic Sequence / 決まり文句 / Formulaic Sequence」 / 定形表現 / 帰納的日本語文法 / N-gram
研究開始時の研究の概要	コーパス言語学やビッグデータ処理の成果を言語教育に活かすため、世界最大規模日本語話し言葉コーパスを構築するとともに、統合文脈N-gram分析により定形表現（Formulaic Sequences）の自動抽出を実現した。この研究では、MapReduceに加えて、膨大な文脈を表現する行IDリストにリスト抽象化を行うことによって、（1）対象N-gramの最大を7を超える文全体に拡張し、N-gramの分析単位を形態素ではなく文字とすること、及び（2）定形表現の隣接行列分析による構造分析をもとに帰納的に日本語文法を再構築し、（3）これらの成果による革新的な日本語教育法及び日本語教材を開発することを目指す
研究実績の概要	15億語以上の大規模話し言葉コーパスを構築するとともに、日本語話し言葉における定形表現の自動抽出を、N-gramを、一文から単語単位で全N-gramを生成し、その文脈を行IDリストとして扱う独自の統合文脈単語N-gram分析をMapReduceで実現した。この独自分析法をリスト抽象化及び文字単位に拡張し、統合文脈文字Ngram分析及び隣接行列による構造分析によって、実際の言語運用に基盤を置く帰納的日本語究へと革新するとともに、この帰納的日本語理解をもとにした大規模コーパスからの日本語教材開発を目指した。システム・評価班では，MapReduceを用いた統合文脈N-gram分析にリスト抽象化を組み込むことによって、ビッグデータ処理のためのシステム構築を行うとともに、アイデア段階であるリスト抽象化の実証を行った。また、定形表現の抽出では同一文脈に関しては最長表現を取り出す処理を行っていることから、特定の定形表現をより短い定形表現を最長一致法で分割することにより、複合定形表現と含まれる定形表現が存在しない原子定形表現とに分析した(定形表現分析)。また、定形表現の前後の連接頻度からなる定形表現隣接頻度行列を生成した。日本語教育班では，システム・評価班が生成する基礎データである定形表現分析及び定形表現隣接頻度行列の基礎データをKey phraseとしての検討を行った。また、教材素材取り出しシステムを利用して、検証用日本語教材の開発を行った。【問い1】昨年度はRubyからPythonへ変更を行った。今年度は、従来の単語単位から、文字単位へ統合文脈N-gram分析を拡張した。【問い2】昨年度の定形表現分割の一つずつの定形表現を中に含まれるより短い単位への分割を行い構造分析につなげた。【問い3】については、海外での日本語教育におけるニーズ調査を行う。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由システム・評価班では，MapReduceを用いた統合文脈N-gram分析にリスト抽象化を組み込むことによって、ビッグデータ処理のためのシステム構築を行うとともに、アイデア段階であるリスト抽象化の実証を行った。また、定形表現をもとにした帰納的文法研究のため、特定の定形表現をより短い定形表現を最長一致法で分割することにより、複合定形表現と含まれる定形表現が存在しない原子定形表現とに分析した(定形表現分析)。また、定形表現隣接頻度行列を生成した。同時に教材の素材となる特定の表現の存在行の前後指定した行数を取り出す教材素材取り出しシステムを開発した。日本語教育班では，システム・評価班が生成する基礎データである定形表現分析及び定形表現隣接頻度行列の基礎データをKey phraseとしての検討を行った。また、教材素材取り出しシステムを利用して、検証用日本語教材の開発を行った。【問い1】問い1は、基本的にはシステム開発を行いアイデアを実証した。【問い2】活用のない“名詞”、活用がなく、文法機能だけを担う“助詞・助動詞”、語尾が活用する“動詞”及び“形容詞”などの基本的な品詞の同定及びその隣接条件を明らかにした。【問い3】CEFR Aレベルの検証教材の開発を行う。また、JPLANGで実装済みの現行日本語教材との比較検証を行う。また、JPLANGを利用している海外の大学の日本語学科との共同研究も検討する。【問い1】今年度は、従来の単語単位から、文字単位へ統合文脈N-gram分析を拡張した。【問い2】昨年度の定形表現分割の一つずつの定形表現を中に含まれるより短い単位への分割を行い構造分析につなげた。【問い3】については、海外での日本語教育におけるニーズ調査を行う予定であったが、コロナ禍のため実施できなかった。
今後の研究の推進方策	システム・評価班では、従来のRubyをベースとするシステムからPythonベースへのシステムに移行した利点を活かし、Pythonの深層学習を含む豊富なライブラリを利用することによって、適用可能な手法が広がることを生かした検討を行う。日本語教育班では、キーフレーズと場面・機能との対応に着目した教材の検討を行う。

報告書

(5件)

研究成果
(37件)

すべて 2024 2023 2022 2021 2020

すべて雑誌論文 (25件) (うち査読あり 12件) 学会発表 (12件) (うち国際学会 3件、招待講演 2件)

[雑誌論文] 多文化共生を目指した日本語教材開発―地域日本語教室ボランティアへの調査事例をもとに－2024
- 著者名/発表者名
  藤森弘子・前田真紀・高村郁子
- 雑誌名
  
  『帝京大学国際日本学研究』紀要
  
  巻: 2 ページ: 29-48
- 関連する報告書
  2023 実績報告書
- 査読あり
[雑誌論文] 日本語中級文型を使った上級レベル学習者の短文作成練習とフィードバック：複文・文脈処理をより円滑に行う取り組みとして2024
- 著者名/発表者名
  鈴木美加
- 雑誌名
  
  東京外国語大学国際日本学研究
  
  巻: 4 ページ: 127-137
- 関連する報告書
  2023 実績報告書
- 査読あり
[雑誌論文] 日本語指導が必要な高校生のための「国語学習活動Can-do」の開発―能力記述文の妥当性検証結果を踏まえて―2024
- 著者名/発表者名
  飯島博子・大津友美・浜田かおり
- 雑誌名
  
  東京外国語大学国際日本学研究
  
  巻: 4
- 関連する報告書
  2023 実績報告書
- 査読あり
[雑誌論文] 日本語テレビ字幕放送データからの言語データ抽出と特徴の分析2023
- 著者名/発表者名
  望月源
- 雑誌名
  
  京外国語大学論集
  
  巻: 106 ページ: 85-104
- 関連する報告書
  2023 実績報告書
- 査読あり
[雑誌論文] BERTを用いたアニメーション字幕における談話境界推定2023
- 著者名/発表者名
  大河原龍太朗，望月源
- 雑誌名
  
  教育情報システム学会第48回全国大会予稿集
  
  巻: D4-I ページ: 275-276
- 関連する報告書
  2023 実績報告書
[雑誌論文] 2つの認知過程－量化と関係化の意味と思考様式2023
- 著者名/発表者名
  佐野洋
- 雑誌名
  
  思考と言語研究会（オンライン）
  
  巻: TL2023-5 ページ: 36-41
- 関連する報告書
  2023 実績報告書
[雑誌論文] ビジネス文書の書き方読本 ―産業日本語研究会ライティング分科会編について2023
- 著者名/発表者名
  佐野洋
- 雑誌名
  
  Japio YEAR BOOK 2023 寄稿集
  
  巻: 2023 寄稿集ページ: 272-277
- 関連する報告書
  2023 実績報告書
[雑誌論文] ノダ文をめぐる日中対照研究　―中国語話者向けの日本語教育を目指して―2023
- 著者名/発表者名
  高甜, 佐野洋
- 雑誌名
  
  外国語教育研究
  
  巻: 26 ページ: 39-57
- 関連する報告書
  2023 実績報告書
- 査読あり
[雑誌論文] 『漫才ワークショップ』による学生の学び ―言語を相対的に捉えるネタ作りと即興創作体験―2023
- 著者名/発表者名
  Mika Suzuki, Manabu Shimaoka
- 雑誌名
  
  Proceedings on The International Symposium on Japanese Language Education: Rediscovering Japanese - Japanese Language Education in the Spotlight 2022
  
  巻: 2022 ページ: 48-59
- 関連する報告書
  2022 実績報告書
- 査読あり
[雑誌論文] Can-do記述を用いた言語能力自己評価アンケートの結果－英語・日本語科目履修者の比較2023
- 著者名/発表者名
  岡葉子、古川嘉子、藤森弘子、初鹿野阿れ
- 雑誌名
  
  帝京大学国際日本学研究
  
  巻: 1 ページ: 34-47
- 関連する報告書
  2022 実績報告書
- 査読あり
[雑誌論文] 身近なメディアとコミュニケーションを再発見する機会の提供を意図した学部言語科目での実践―日本語母語・非母語学生の『メディア・リテラシー』の涵養を意図して―2023
- 著者名/発表者名
  鈴木美加
- 雑誌名
  
  日本教育メディア学会研究会論集
  
  巻: 2023 ページ: 83-88
- 関連する報告書
  2022 実績報告書
- 査読あり
[雑誌論文] SQLおよびSQL/MMにおける日本からのいくつかの提案とその顛末2022
- 著者名/発表者名
  小寺　孝、鈴木健司、梶野智行、土田正士、山平耕作、芝野耕司
- 雑誌名
  
  情報処理
  
  巻: 63 ページ: 12-27
- 関連する報告書
  2022 実績報告書
- 査読あり
[雑誌論文] 2つの認知過程－量化と関係化の意味を対照させる言語学習2022
- 著者名/発表者名
  佐野洋
- 雑誌名
  
  電子情報通信学会思考と言語研究会
  
  巻: TL2022-40 ページ: 36-41
- 関連する報告書
  2022 実績報告書
[雑誌論文] 日本語教師と高校教員の「連絡帳」を用いた異分野間コミュニケーションー外国人高校生への日本語学習支援のための連携体制構築をめざしてー2022
- 著者名/発表者名
  大津友美、浜田かおり
- 雑誌名
  
  東京外国語大学論集
  
  巻: 104 ページ: 97-112
- 関連する報告書
  2022 実績報告書
- 査読あり
[雑誌論文] Mining Formulaic Sequences from a Spoken Japanese Based on Consolidated Contextualized N-gram Analyses and Its Verification with Key Phrases in Japanese Language Textbooks2022
- 著者名/発表者名
  Hajime Mochizuki and Kohji Shibano
- 雑誌名
  
  Proceeding of World Conference On Educational Media and Technology + INNOVATE LEARNING 2022
  
  巻: 2022 ページ: 909-916
- 関連する報告書
  2022 実績報告書
- 査読あり
[雑誌論文] 学習を認知・情意・精神運動の領域で捉える提案 : より見通しのきく日本語教育Can-do記述に向けて2022
- 著者名/発表者名
  鈴木美加
- 雑誌名
  
  国立国語研究所論集 = NINJAL Research Papers
  
  巻: 22 号: 22 ページ: 71-88
- DOI
  10.15084/00003514
- NAID
  120007184728
- ISSN
  2186-1358
- URL
  https://repository.ninjal.ac.jp/records/3531
- 関連する報告書
  2021 実績報告書
[雑誌論文] 多国籍の学生と芸人・教師による漫才ワークショップ―「メディア日本語：メディアとメッセージ」授業における試み―2022
- 著者名/発表者名
  鈴木美加、島岡学
- 雑誌名
  
  日本語・日本学研究
  
  巻: 12 ページ: 99-115
- 関連する報告書
  2021 実績報告書
[雑誌論文] Can-do型日本語学習用資源としてのアニメーション字幕の分析2022
- 著者名/発表者名
  大河原龍太朗, 望月源
- 雑誌名
  
  言語処理学会第28回年次大会
  
  巻: 28 ページ: 1690-1694
- 関連する報告書
  2021 実績報告書
[雑誌論文] スタイルの違いに注目した脚本から小説への変換に関する一考察2022
- 著者名/発表者名
  内田美友, 望月源
- 雑誌名
  
  言語処理学会第28回年次大会
  
  巻: 28 ページ: 921-926
- 関連する報告書
  2021 実績報告書
[雑誌論文] テレビ字幕データを用いた感情分析による「ある日の日本の気分」推定に関する研究2022
- 著者名/発表者名
  イーフエイチー, 望月源
- 雑誌名
  
  言語処理学会第28回年次大会
  
  巻: 28 ページ: 857-862
- 関連する報告書
  2021 実績報告書
[雑誌論文] 思考表出のガイドとしての日本語マニュアル「表す日本語」の再考2021
- 著者名/発表者名
  佐野洋
- 雑誌名
  
  Japio YEAR BOOK 2021 寄稿集
  
  巻: 2021 ページ: 306-313
- 関連する報告書
  2021 実績報告書
[雑誌論文] 現代スペイン語における主語後置の数理モデル化2021
- 著者名/発表者名
  小林純一朗，佐野洋
- 雑誌名
  
  JAECS 47th Conference（英語コーパス学会第47回大会）
  
  巻: 47 ページ: 109-114
- 関連する報告書
  2021 実績報告書
[雑誌論文] アカデミックな言語活動を支える日本語「中級総復習」のオンラインクラス：上級日本語学習者に対する指導と支援2021
- 著者名/発表者名
  鈴木美加、後藤倫子
- 雑誌名
  
  国際日本学研究
  
  巻: 2021 ページ: 143-156
- NAID
  120007003680
- 関連する報告書
  2020 実績報告書
[雑誌論文] 時間論によるモダリティ研究への試論：中国語の認識的モダリティの“要”を例にして2020
- 著者名/発表者名
  佐野洋，チョウテイ
- 雑誌名
  
  日本認知言語学会論文集
  
  巻: 21 ページ: 400-406
- NAID
  40022581289
- 関連する報告書
  2020 実績報告書
- 査読あり
[雑誌論文] 文書作成モデルと時間経過の二重性、動きの表象2020
- 著者名/発表者名
  佐野洋
- 雑誌名
  
  Japio YEAR BOOK 2020 寄稿集
  
  巻: 2020 ページ: 306-312
- 関連する報告書
  2020 実績報告書
[学会発表] 最大規模テレビ字幕話し言葉コーパスによる定形表現（Formulaic Sequence)自動抽出と文型、深層学習、ChatGP2023
- 著者名/発表者名
  芝野耕司
- 学会等名
  アジア日本研究者協議会第7回国際学術大会
- 関連する報告書
  2023 実績報告書
- 招待講演
[学会発表] 日本語上級学習者と文型短文作成：『中級』授業での文型短文作成練習とフィードバック2023
- 著者名/発表者名
  鈴木美加・レディン・ケヴィン
- 学会等名
  東アジア日本研究者協議会第7回国際学術大会
- 関連する報告書
  2023 実績報告書
[学会発表] Extracting Japanese Sentence-Ending Expressions using Formulaic Sequences with Consolidated Contextualized N-gram Analysis2023
- 著者名/発表者名
  Hajime Mochizuki and Kohji Shibano
- 学会等名
  The 21 st Annual Conference of Hawaii International Conference on Education
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] ノダ文をめぐる日中対照研究 ―外国語教育への応用を目指して―2023
- 著者名/発表者名
  高甜、佐野洋
- 学会等名
  東アジア言語文化学会
- 関連する報告書
  2022 実績報告書
[学会発表] 中日対訳コーパスの開発とその利用－中国語「会」、日本語「のだ」の対照分析－2023
- 著者名/発表者名
  高橋秀斗、高甜、佐野洋
- 学会等名
  英語コーパス学会語彙研究会
- 関連する報告書
  2022 実績報告書
[学会発表] Real Word Statistics and End of Sentence Expressions in Japanese Closed Caption TV Corpus2022
- 著者名/発表者名
  Hajime Mochizuki
- 学会等名
  9th International Conference on Language, Literature and Linguistics (LLL2022), Singapore
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] Investigation of Formulaic Sequences at The End of Sentence in Japanese Closed Caption TV Corpus2022
- 著者名/発表者名
  Hajime Mochizuki and Kohji Shibano
- 学会等名
  2023 STEM/STEAM and Education Conference
- 関連する報告書
  2022 実績報告書
- 国際学会
[学会発表] 日中対訳小説からみる文末名詞文の使用と説明のメカニズム―ノダ文と中心に―2022
- 著者名/発表者名
  高甜，佐野洋
- 学会等名
  第26回外国語教育学会大会
- 関連する報告書
  2022 実績報告書
[学会発表] 「漫才ワークショップ」による学生の学び ―言語を相対的に捉えるネタ作りと即興創作体験―2022
- 著者名/発表者名
  鈴木美加、島岡学
- 学会等名
  2022年ブカレスト大学日本語教育シンポジウム「日本語再発見－日本語教育の現場から－」
- 関連する報告書
  2021 実績報告書
[学会発表] 金融関連辞典と実務資料コーパスを用いた経済・金融分野の英語語彙リスト研究2021
- 著者名/発表者名
  小谷尚子，佐野洋
- 学会等名
  JAECS 47th Conference（英語コーパス学会第47回大会）
- 関連する報告書
  2021 実績報告書
[学会発表] 「隔たり」を置き、「隔たり」を減らす21世紀型の学びとは？―日本語教育における自律的な学びと協働学習を学習目標の３領域に照らして検討する―2021
- 著者名/発表者名
  鈴木美加
- 学会等名
  2021年韓国語日本語文学会冬季国際学術大会
- 関連する報告書
  2021 実績報告書
- 招待講演
[学会発表] 屈折語（ポーランド語）の意味単位－予備的調査－2020
- 著者名/発表者名
  肥沼実穂，佐野洋
- 学会等名
  JAECS（英語コーパス学会）語彙SIG 2020年度研究会
- 関連する報告書
  2020 実績報告書

大規模日本語定型表現抽出と構造分析による帰納的文法再構築及び日本語教育への応用

研究代表者

芝野 耕司 東京外国語大学, その他部局等, 名誉教授 (50216024)

42,510千円 (直接経費: 32,700千円、間接経費: 9,810千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] 多文化共生を目指した日本語教材開発―地域日本語教室ボランティアへの調査事例をもとに－2024

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 日本語中級文型を使った上級レベル学習者の短文作成練習とフィードバック：複文・文脈処理をより円滑に行う取り組みとして2024

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 日本語指導が必要な高校生のための「国語学習活動Can-do」の開発―能力記述文の妥当性検証結果を踏まえて―2024

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 日本語テレビ字幕放送データからの言語データ抽出と特徴の分析2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] BERTを用いたアニメーション字幕における談話境界推定2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 2つの認知過程－量化と関係化の意味と思考様式2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] ビジネス文書の書き方読本 ―産業日本語研究会 ライティング分科会編について2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] ノダ文をめぐる日中対照研究 ―中国語話者向けの日本語教育を目指して―2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 『漫才ワークショップ』による学生の学び ―言語を相対的に捉えるネタ作りと即興創作体験―2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Can-do記述を用いた言語能力自己評価アンケートの結果－英語・日本語科目履修者の比較2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 身近なメディアとコミュニケーションを再発見する機会の提供を 意図した学部言語科目での実践―日本語母語・非母語学生の『メディア・リテラシー』の涵養を意図して―2023

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] SQLおよびSQL/MMにおける日本からのいくつかの提案とその顛末2022

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 2つの認知過程－量化と関係化の意味を対照させる言語学習2022

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 日本語教師と高校教員の「連絡帳」を用いた異分野間コミュニケーションー外国人高校生への日本語学習支援のための連携体制構築をめざしてー2022

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Mining Formulaic Sequences from a Spoken Japanese Based on Consolidated Contextualized N-gram Analyses and Its Verification with Key Phrases in Japanese Language Textbooks2022

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 学習を認知・情意・精神運動の領域で捉える提案 : より見通しのきく日本語教育Can-do記述に向けて2022

著者名/発表者名

雑誌名

DOI

NAID

ISSN

URL

関連する報告書

[雑誌論文] 多国籍の学生と芸人・教師による漫才ワークショップ―「メディア日本語：メディアとメッセージ」授業における試み―2022

著者名/発表者名

雑誌名

関連する報告書

芝野耕司東京外国語大学, その他部局等, 名誉教授 (50216024)

[雑誌論文] ビジネス文書の書き方読本 ―産業日本語研究会ライティング分科会編について2023

[雑誌論文] ノダ文をめぐる日中対照研究　―中国語話者向けの日本語教育を目指して―2023

[雑誌論文] 身近なメディアとコミュニケーションを再発見する機会の提供を意図した学部言語科目での実践―日本語母語・非母語学生の『メディア・リテラシー』の涵養を意図して―2023