• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2017 年度 実績報告書

大規模会話コーパスのFS2vec処理によるCEFR Can-do言語教材の開発

研究課題

研究課題/領域番号 15H02794
研究機関東京外国語大学

研究代表者

望月 源  東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)

研究分担者 芝野 耕司  東京外国語大学, アジア・アフリカ言語文化研究所, 教授 (50216024)
佐野 洋  東京外国語大学, 大学院総合国際学研究院, 教授 (30282776)
藤村 知子  東京外国語大学, 大学院国際日本学研究院, 教授 (20229040)
研究期間 (年度) 2015-04-01 – 2019-03-31
キーワード学習コンテンツ開発支援 / eラーニング / 日本語教育 / 自然言語処理
研究実績の概要

本研究では計画段階の3億3千万語、5万3時間分のテレビ字幕データから、11億4千6百万語,約1億478万文,18万5千時間分,29万4千番組分に拡張したこれまでに存在していなかった規模の大規模会話コーパスを構築している.このコーパスから字幕表示時間に基づいて文を組み合わせた会話セグメントの抽出をプログラムによって行った.2017年度末の段階で,セグメント数は3千百万に達している.
開発したMapReduce型アルゴリズムのプログラムにより,単語のNグラムによる組み合わせパターンを作成し,Formulaic Sequence (FS) の重要候補を抽出した.29年度は大量に抽出されたFSの中から特に有効なFSを選び出すための手法として,比較的長い文字列で構成され,出現頻度も多いFSを有効なFSと考え,長さ9文字以上,頻度9回以上の閾値を設けて抽出した.
また,カイ2乗値を用いてジャンルによるFSの出現の偏りを計算し,ドラマ,バラエティ,情報番組を対象にカイ2乗値の上位100のFSにみられる表現的特徴を調べた.約8割のFSは「あいさつ」「感謝」「要求」「謝罪」「祝意」「推測」といった目的を示す表現に関連づき,Can-doと特定のFSの目的による対応付けが現実的であることを確認した.
また,同一のFSを含む複数セグメントを話題,場面で分類するため,クラスタリングを行った.まずFSをキーに会話セグメントを検索し,Doc2vecでセグメント間類似度ベクトルを計算し,SVDでの次元縮退の後,k-means法によるクラスタリングを行った.同一クラスタ内の会話内容をサンプリング調査した結果,類似した話題,場面を含むセグメントが分類されていることを確認した.FSによって表現される会話の目的と,名詞などで表現される会話セグメント内の話題や場面による分類とCan-doとの対応付けに取り掛かっている.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

字幕データ取得システムは引き続き安定運用が行えており,構築を続けているテレビ字幕コーパスも順調に規模を拡大している.これまでのところ,およそテレビ字幕5年分,29万4千番組,11億4千6百万語,約1億478万文のコーパスデータに達している.
前年度に絞り込みを行ったFormulaic Sequenceから,さらに有効と思われるFSを文字列長と出現頻度に基づいて抽出する手法を検討,実装し,実行した.絞り込まれたFSの分析を行い約8割は会話の目的に関連づくことが確認できた.同一のFSを含む会話セグメントを検索し,クラスタリングすることで類似した話題,場面を含むセグメントとFSの対応付けが行え,Can-doとの対応付けに取り掛かることができた.

今後の研究の推進方策

29年度に引き続き,27年度に開発したMapReduce型アルゴリズムを改良し,データを継続的に扱えるようにする.収集期間が5年を超え長期化していることから,30年度は各月ごとのFormulaic Sequence(FS)の計算を独立させ,任意の期間の組み合わせで一定期間におけるFSの計算やジャンル別のFSの計算が行えるようにアルゴリズムを洗練させる.29年度に開発したFSから検索した会話セグメントをクラスタリングするアルゴリズムを洗練させる.29年度に引き続き,同一FSを含む会話セグメントからできるクラスタごとの特徴を分析し,Can-doの定義文記述への対応付けを行う.FSを含む会話セグメントとCan-do定義文との対応付けを行い.機械学習手法により,コーパスからのCan-do言語教材作成を行うプログラム開発を行う.

  • 研究成果

    (8件)

すべて 2018 2017

すべて 学会発表 (8件) (うち国際学会 8件、 招待講演 1件)

  • [学会発表] Analyzing Usefulness of Dialogues from Closed Caption TV Corpus as an Example of Can-do Statements for Language Learnin2018

    • 著者名/発表者名
      Hajime Mochizuki and Kohji Shibano
    • 学会等名
      2018 Hawaii University Conference, Arts, Humanities, Social Sciences & Education (AHSE)
    • 国際学会
  • [学会発表] Developing Intimacy by Style-shifting in Japanese: A TV Subtitle Corpus-based Study2017

    • 著者名/発表者名
      XIAO Tingting and Kohji Shibano
    • 学会等名
      The 2017 conference of the American Association for Applied Linguistics (AAAL 2017)
    • 国際学会
  • [学会発表] The Acquisition of a Japanese Practical Formulaic Sequences List from a Closed Caption TV Corpus2017

    • 著者名/発表者名
      Hajime Mochizuki and Kohji Shibano
    • 学会等名
      Hawaii University Conferences, STAM/STEAM Education Conference
    • 国際学会
  • [学会発表] Augmented Reality Applications for Multilingual Learning with Intuitive Understanding2017

    • 著者名/発表者名
      Hajime Mochizuki
    • 学会等名
      World Conference on Educational Media and Technology (EDMEDIA) 2017
    • 国際学会
  • [学会発表] Analyzing formulaic sequences in spoken Japanese from a large Japanese TV closed caption corpus2017

    • 著者名/発表者名
      Kohji Shibano
    • 学会等名
      The 18th World Congress of Applied Linguistics (AILA 2017)
    • 国際学会
  • [学会発表] Discourse Segment Clustering with Word Embedding based on Formulaic Sequences for Language Education2017

    • 著者名/発表者名
      Hajime Mochizuki and Kohji Shibano
    • 学会等名
      2017 International Conference on Education and Multimedia Technology (ICEMT 2017)
    • 国際学会
  • [学会発表] Building a Very Large Spoken Language Corpus from Closed Caption TV and Extracting Practical Formulaic Sequences for Language Learning2017

    • 著者名/発表者名
      Hajime Mochizuki
    • 学会等名
      The 10th International Conference on Advanced Computer Theory and Engineering
    • 国際学会 / 招待講演
  • [学会発表] Searching Discourse Segments for Formulaic Sequences in a Closed Caption TV Corpus for Language Learning2017

    • 著者名/発表者名
      Hajime Mochizuki and Kohji Shibano
    • 学会等名
      World Conference on E-Learning in Corporate, Government, Healthcare, and Higher Education 2017
    • 国際学会

URL: 

公開日: 2018-12-17  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi