• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

大規模会話コーパスのFS2vec処理によるCEFR Can-do言語教材の開発

研究課題

研究課題/領域番号 15H02794
研究種目

基盤研究(B)

配分区分補助金
応募区分一般
研究分野 学習支援システム
研究機関東京外国語大学

研究代表者

望月 源  東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)

研究分担者 芝野 耕司  東京外国語大学, その他部局等, 名誉教授 (50216024)
佐野 洋  東京外国語大学, 大学院総合国際学研究院, 教授 (30282776)
藤村 知子  東京外国語大学, 大学院国際日本学研究院, 教授 (20229040)
研究期間 (年度) 2015-04-01 – 2019-03-31
研究課題ステータス 完了 (2018年度)
配分額 *注記
15,340千円 (直接経費: 11,800千円、間接経費: 3,540千円)
2018年度: 3,120千円 (直接経費: 2,400千円、間接経費: 720千円)
2017年度: 3,640千円 (直接経費: 2,800千円、間接経費: 840千円)
2016年度: 3,640千円 (直接経費: 2,800千円、間接経費: 840千円)
2015年度: 4,940千円 (直接経費: 3,800千円、間接経費: 1,140千円)
キーワード学習コンテンツ開発支援 / eラーニング / 日本語教育 / 自然言語処理 / Formulaic Sequences / Formulaic Sequence / 学習コンテンツ開発
研究成果の概要

我々は,日本語テレビ字幕(CCTV)コーパスからフォーミュライックシーケンス(FS)を抽出する方法を開発した。本研究では,FSの候補として,重要なn-gramをCCTVコーパスから抽出する。各n-gramの出現頻度を計算するため,我々は大量のn-gramをソートし,マージするプログラムをMapReduceアルゴリズムに基づき開発した。会話セグメント内の話題や場面による分類を行い,対応可能なCan-doの存在を確認した。字幕コーパスは拡張を続け,13億語規模に拡大した。研究成果は,AAAL,EDMEDIA, E-Learnなどの国際学会を中心に査読付き論文発表を行なった。

研究成果の学術的意義や社会的意義

これまで存在していなかった大規模な日本語会話コーパスの構築を続け,6年以上にわたる日本のテレビ番組の字幕データを整備した。規模は35万番組,1億2千4百万文,13億3千6百万語超に達した。この大規模なコーパスから,日本語学習教材にも応用できる特別な意味を持つ複数単語のまとまりであるFormulaic Sequence(定型表現)を大量に抽出した。定型表現を核にして,コーパス内の会話セグメントを取り出し,セグメント内の定型表現が表す機能と,各セグメントの話題,場面をCan-doと対応づけることで有益な教材が作成できることを確認した。

報告書

(5件)
  • 2018 実績報告書   研究成果報告書 ( PDF )
  • 2017 実績報告書
  • 2016 実績報告書
  • 2015 実績報告書
  • 研究成果

    (25件)

すべて 2019 2018 2017 2016 2015

すべて 雑誌論文 (1件) (うち査読あり 1件、 謝辞記載あり 1件) 学会発表 (24件) (うち国際学会 20件、 招待講演 1件)

  • [雑誌論文] Re-Mining Topics Popular in the Recent Past from a Large-Scale Closed Caption TV Corpus2015

    • 著者名/発表者名
      Hajme Mochizuki and Kohji Shibano
    • 雑誌名

      International Joural of Future Computer and Communication

      巻: 4 ページ: 98-103

    • 関連する報告書
      2015 実績報告書
    • 査読あり / 謝辞記載あり
  • [学会発表] Investigation of Words in Japanese Closed Caption TV Corpus2019

    • 著者名/発表者名
      Hajime Mochizuki
    • 学会等名
      STEM & STEAM Education Conference, 2019
    • 関連する報告書
      2018 実績報告書
    • 国際学会
  • [学会発表] Analyzing Usefulness of Dialogues from Closed Caption TV Corpus as an Example of Can-do Statements for Language Learnin2018

    • 著者名/発表者名
      Hajime Mochizuki and Kohji Shibano
    • 学会等名
      2018 Hawaii University Conference, Arts, Humanities, Social Sciences & Education (AHSE)
    • 関連する報告書
      2017 実績報告書
    • 国際学会
  • [学会発表] Modification of word2vec by Formulaic Sequences and Extraction of Useful Expressions for Language Learning from Closed Caption TV Corpus2017

    • 著者名/発表者名
      Hajime Mochizuki and Kohji Shibano
    • 学会等名
      The IAFOR International Conference on Language Learning Hawaii
    • 発表場所
      Honolulu, USA
    • 年月日
      2017-01-08
    • 関連する報告書
      2016 実績報告書
    • 国際学会
  • [学会発表] Developing Intimacy by Style-shifting in Japanese: A TV Subtitle Corpus-based Study2017

    • 著者名/発表者名
      XIAO Tingting and Kohji Shibano
    • 学会等名
      The 2017 conference of the American Association for Applied Linguistics (AAAL 2017)
    • 関連する報告書
      2017 実績報告書 2016 実績報告書
    • 国際学会
  • [学会発表] The Acquisition of a Japanese Practical Formulaic Sequences List from a Closed Caption TV Corpus2017

    • 著者名/発表者名
      Hajime Mochizuki and Kohji Shibano
    • 学会等名
      Hawaii University Conferences, STAM/STEAM Education Conference
    • 関連する報告書
      2017 実績報告書
    • 国際学会
  • [学会発表] Augmented Reality Applications for Multilingual Learning with Intuitive Understanding2017

    • 著者名/発表者名
      Hajime Mochizuki
    • 学会等名
      World Conference on Educational Media and Technology (EDMEDIA) 2017
    • 関連する報告書
      2017 実績報告書
    • 国際学会
  • [学会発表] Analyzing formulaic sequences in spoken Japanese from a large Japanese TV closed caption corpus2017

    • 著者名/発表者名
      Kohji Shibano
    • 学会等名
      The 18th World Congress of Applied Linguistics (AILA 2017)
    • 関連する報告書
      2017 実績報告書 2016 実績報告書
    • 国際学会
  • [学会発表] Discourse Segment Clustering with Word Embedding based on Formulaic Sequences for Language Education2017

    • 著者名/発表者名
      Hajime Mochizuki and Kohji Shibano
    • 学会等名
      2017 International Conference on Education and Multimedia Technology (ICEMT 2017)
    • 関連する報告書
      2017 実績報告書
    • 国際学会
  • [学会発表] Building a Very Large Spoken Language Corpus from Closed Caption TV and Extracting Practical Formulaic Sequences for Language Learning2017

    • 著者名/発表者名
      Hajime Mochizuki
    • 学会等名
      The 10th International Conference on Advanced Computer Theory and Engineering
    • 関連する報告書
      2017 実績報告書
    • 国際学会 / 招待講演
  • [学会発表] Searching Discourse Segments for Formulaic Sequences in a Closed Caption TV Corpus for Language Learning2017

    • 著者名/発表者名
      Hajime Mochizuki and Kohji Shibano
    • 学会等名
      World Conference on E-Learning in Corporate, Government, Healthcare, and Higher Education 2017
    • 関連する報告書
      2017 実績報告書
    • 国際学会
  • [学会発表] Extracting Formulaic Sequences Containing Useful Expressions for Language Learning from Closed Caption TV Corpus2016

    • 著者名/発表者名
      Hajime Mochizuki and Kohji Shibano
    • 学会等名
      World Conference on E-Learning in Corporate, Government, Healthcare, and Higher Education, E-Learn 2016
    • 発表場所
      Alexandria, USA
    • 年月日
      2016-11-14
    • 関連する報告書
      2016 実績報告書
    • 国際学会
  • [学会発表] Development of a Closed Caption TV Corpus Retrieval System for Language Learning2016

    • 著者名/発表者名
      Hajime Mochizuki
    • 学会等名
      8th International Conference on Education Technology and Computers (ICETC 2016)
    • 発表場所
      Singapore
    • 年月日
      2016-09-28
    • 関連する報告書
      2016 実績報告書
    • 国際学会
  • [学会発表] Straightforward Expansion of word2vec by Formulaic Sequences in CCTV corpus2016

    • 著者名/発表者名
      Hajime Mochizuki
    • 学会等名
      Nineth International Conference on Advanced Computer Theory and Engineering, ICACTE 2016
    • 発表場所
      Hong Kong
    • 年月日
      2016-08-19
    • 関連する報告書
      2016 実績報告書
    • 国際学会
  • [学会発表] Development of AR Materials for Understanding Roles of Japanese Particles2016

    • 著者名/発表者名
      Hajime Mochizuki
    • 学会等名
      2016 STEM & STEAM Education Conference
    • 発表場所
      Honolulu, USA
    • 年月日
      2016-06-10
    • 関連する報告書
      2016 実績報告書
    • 国際学会
  • [学会発表] Japanese Language Learning System for Understanding a Sentence that has Correct Syntax but has Semantic Errors2016

    • 著者名/発表者名
      Hajime Mochizuki
    • 学会等名
      the 2nd International Conference on Information Technology (ICIT 2016)
    • 発表場所
      Melbourne, Australia
    • 年月日
      2016-03-03
    • 関連する報告書
      2015 実績報告書
    • 国際学会
  • [学会発表] Analyzing Attractiveness of Specific Location Names of Tourist Destination from a Closed Caption TV Corpus2016

    • 著者名/発表者名
      Hajime Mochizuki and Kohji Shibano
    • 学会等名
      Hawaii University Conferences, Arts, Humanities, Social Sciences & Education (AHSE)
    • 発表場所
      Hawaii, USA
    • 年月日
      2016-01-08
    • 関連する報告書
      2015 実績報告書
    • 国際学会
  • [学会発表] 事態把握の違いを利用した語学教材の提案(2)2016

    • 著者名/発表者名
      佐野洋
    • 学会等名
      第135回CE研究発表会, 情報処理学会
    • 発表場所
      信州大学,長野県
    • 関連する報告書
      2016 実績報告書
  • [学会発表] 事態把握の違いを用いた語学学習法(2)2016

    • 著者名/発表者名
      佐野洋
    • 学会等名
      思考と言語研究会 (TL),電子通信学会
    • 発表場所
      早稲田大学,東京都
    • 関連する報告書
      2016 実績報告書
  • [学会発表] 事態把握の違いを用いた語学学習法(3)2016

    • 著者名/発表者名
      佐野洋
    • 学会等名
      思考と言語研究会 (TL),電子通信学会
    • 発表場所
      ポートアイランド,兵庫県
    • 関連する報告書
      2016 実績報告書
  • [学会発表] 事態把握の違いを利用した語学教材の提案(3)2016

    • 著者名/発表者名
      佐野洋
    • 学会等名
      第136回CE研究発表会,情報処理学会
    • 発表場所
      長崎県立大学シーボルト校,長崎県
    • 関連する報告書
      2016 実績報告書
  • [学会発表] Detecting Topics Popular in the Recent Past from a Closed Caption TV Corpus as a Categorized Chronicle data2015

    • 著者名/発表者名
      Hajime Mochizuki and Kohji Shibano
    • 学会等名
      the 7th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management (KMIS)
    • 発表場所
      Lisbon, Portgal
    • 年月日
      2015-11-12
    • 関連する報告書
      2015 実績報告書
    • 国際学会
  • [学会発表] 日本語話し言葉コーパスの構築と会話用例検索システム2015

    • 著者名/発表者名
      芝野耕司
    • 学会等名
      6th CASTEL/J Hawaii 2015
    • 発表場所
      Hawaii, USA
    • 年月日
      2015-08-07
    • 関連する報告書
      2015 実績報告書
    • 国際学会
  • [学会発表] A Quantitative Formulaic Analysis of Large TV Closed Caption Corpus – Pragmatic Use of Utterance End in Japanese Animation Languages2015

    • 著者名/発表者名
      Kohji Shibano
    • 学会等名
      14th International Pragmatics Conference
    • 発表場所
      Antwerp Belgium
    • 年月日
      2015-07-26
    • 関連する報告書
      2015 実績報告書
    • 国際学会
  • [学会発表] Development of a Closed Caption TV Corpus Retrieval System to Seek Video Scenes Containing Useful Expressions for Language Learning2015

    • 著者名/発表者名
      Hajime Mochizuki and Kohji Shibano
    • 学会等名
      World Conference on Educational Media and Technology (EDMEDIA)
    • 発表場所
      Montreal, Canada
    • 年月日
      2015-06-22
    • 関連する報告書
      2015 実績報告書
    • 国際学会

URL: 

公開日: 2015-04-16   更新日: 2020-03-30  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi