• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

大規模字幕コーパスからの単語・フレーズ・会話のボトムアップ言語教材自動抽出

研究課題

研究課題/領域番号 19H04224
研究種目

基盤研究(B)

配分区分補助金
応募区分一般
審査区分 小区分62030:学習支援システム関連
研究機関東京外国語大学

研究代表者

望月 源  東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)

研究分担者 芝野 耕司  東京外国語大学, その他部局等, 名誉教授 (50216024)
研究期間 (年度) 2019-04-01 – 2023-03-31
研究課題ステータス 完了 (2022年度)
配分額 *注記
17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円)
2022年度: 3,640千円 (直接経費: 2,800千円、間接経費: 840千円)
2021年度: 3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2020年度: 4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2019年度: 5,330千円 (直接経費: 4,100千円、間接経費: 1,230千円)
キーワード学習コンテンツ開発支援 / eラーニング / 日本語教育 / 自然言語処理 / Formulaic Sequences / 分散表現
研究開始時の研究の概要

この研究では,我々のTV字幕に基づく大規模話し言葉コーパスから,語,フレーズ,会話という言語単位のボトムアップな組み上げによって,言語教育Can-doに対応する言語教材の自動抽出を試みるとともに,Can-doとキーフレーズの対応付けも行う。
具体的には,(1)語の分散表現を語義ごとに分割する計算方法を探る。(2)ひとかたまりの意味を持つフレーズであるFSの網羅的抽出と語用論的意味分析による知識化を行い,FS分散表現とそのFSの用途の違いによる分割計算を可能にする。(3)FS分散表現の深層学習によるCan-do会話教材の自動抽出により,Can-doに対応するキーフレーズを抽出する。

研究成果の概要

我々は,これまでなかったサイズの異なるnグラムの頻度を一括して比較可能な統合文脈nグラムを開発し,複数の語,単語を組み合わせた定型表現(フォーミュライックシーケンス,FS)を抽出した。FSの分散表現でのクラスタリングにより表層表現は異なるが機能的に類似した「機能別フレーズ集合」としてFSのクラスタを獲得できることが確認できた。コーパス内の会話部分とCan-doを対応づけした教師データを作成し深層学習モデルによる教材会話の自動抽出も試み一定の成果を得た。字幕コーパスは拡張を続け,22億語規模に拡大した。研究成果は,EDMEDIA,E-Learnなどの国際学会を中心に査読付き論文発表を行なった。

研究成果の学術的意義や社会的意義

大規模日本語会話コーパスの構築を続け,10年以上にわたる日本のテレビ番組の字幕データを整備し,59万8千番組,2億8百文,22億5千万語超に達した。また,コーパスの語彙調査を行い,テレビ字幕データが言語教材として十分に有益であることを確認した。これまで実現していなかったサイズの異なるnグラムの頻度を一括して比較可能な統合文脈nグラムを開発したコーパス内のすべての文から定型表現としてフォーミュライックシーケンス,FSの抽出を行い,FSが日本語教科書の重要フレーズを含むことを確認した。日本語Can-doに対応した会話データを教師データとして整備し,機械学習モデルでの会話セグメント自動抽出を行った。

報告書

(5件)
  • 2022 実績報告書   研究成果報告書 ( PDF )
  • 2021 実績報告書
  • 2020 実績報告書
  • 2019 実績報告書
  • 研究成果

    (9件)

すべて 2023 2022 2020 2019

すべて 学会発表 (9件) (うち国際学会 4件)

  • [学会発表] Extracting Japanese Sentence-Ending Expressions using Formulaic Sequences with Consolidated Contextualized N-gram Analysis2023

    • 著者名/発表者名
      Hajime Mochizuki, Kohji Shibano
    • 学会等名
      The 21st Annual Conference of Hawaii International Conference on Education,
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Mining Formulaic Sequences from a Spoken Japanese Based on Consolidated Contextualized N-gram Analyses and Its Verification with Key Phrases in Japanese Language Textbooks2022

    • 著者名/発表者名
      Hajime Mochizuki, Kohji Shibano
    • 学会等名
      World Conference On Educational Media and Technology + INNOVATE LEARNING 2022
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Investigation of Formulaic Sequences at The End of Sentence in Japanese Closed Caption TV Corpus2022

    • 著者名/発表者名
      Hajime Mochizuki, Kohji Shibano
    • 学会等名
      2023 STEM/STEAM and Education Conference
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Real Word Statistics and End of Sentence Expressions in Japanese Closed Caption TV Corpus2022

    • 著者名/発表者名
      Hajime Mochizuki
    • 学会等名
      9th International Conference on Language, Literature and Linguistics (LLL2022)
    • 関連する報告書
      2022 実績報告書
    • 国際学会
  • [学会発表] Can-do型日本語学習用資源としてのアニメーション字幕の分析2022

    • 著者名/発表者名
      大河原龍太朗, 望月源
    • 学会等名
      言語処理学会第28回年次大会
    • 関連する報告書
      2021 実績報告書
  • [学会発表] テレビ字幕データを用いた感情分析による「ある日の日本の気分」推定に関する研究2022

    • 著者名/発表者名
      イーフエイチー, 望月源
    • 学会等名
      言語処理学会第28回年次大会
    • 関連する報告書
      2021 実績報告書
  • [学会発表] 中国語母語話者の日本語学習におけるL1L2字幕利用の考察2020

    • 著者名/発表者名
      王 楽淑 and 望月 源 and 鈴木 美加
    • 学会等名
      言語処理学会第26回年次大会
    • 関連する報告書
      2019 実績報告書
  • [学会発表] Investigation of Words in a Japanese Closed Caption TV Corpus2019

    • 著者名/発表者名
      Hajime Mochizuki
    • 学会等名
      Hawaii University Conferences, STAM/STEAM Education Conference, 2019
    • 関連する報告書
      2019 実績報告書
  • [学会発表] Incorporating a State-of-the-Art Speech Recognition to a Japanese Language e-Learning System2019

    • 著者名/発表者名
      Hajime Mochizuki and Kohji Shibano
    • 学会等名
      E-Learn: World Conference on E-Learning in Corporate, Government, Healthcare, and Higher Education 2019
    • 関連する報告書
      2019 実績報告書

URL: 

公開日: 2019-04-18   更新日: 2024-01-30  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi