• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2015 Fiscal Year Annual Research Report

大規模会話コーパスのFS2vec処理によるCEFR Can-do言語教材の開発

Research Project

Project/Area Number 15H02794
Research InstitutionTokyo University of Foreign Studies

Principal Investigator

望月 源  東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)

Co-Investigator(Kenkyū-buntansha) 芝野 耕司  東京外国語大学, アジア・アフリカ言語文化研究所, 教授 (50216024)
佐野 洋  東京外国語大学, 大学院総合国際学研究院, 教授 (30282776)
藤村 知子  東京外国語大学, 大学院国際日本学研究院, 教授 (20229040)
Project Period (FY) 2015-04-01 – 2019-03-31
Keywords学習コンテンツ開発支援 / eラーニング / 日本語教育 / 自然言語処理
Outline of Annual Research Achievements

本研究では計画段階の3億3千万語、5万3千時間分のテレビ字幕データから、6億5千万語、10万5千時間分、16万8千番組分に拡張したこれまでに存在していなかった規模の大規模会話コーパスを構築している。このコーパスから、文を抽出し、文の組み合わせから談話セグメントを抽出するプログラムを作成した。また、MpaReduce型アルゴリズムのプログラムを開発し、単語のNグラムの組み合わせパターンを作成し、頻度統計を計算した。コーパス内の約6千500万文に出現するこのNグラムパターンの中から、出現文が完全一致するパターン群で最長のパターンを残すアルゴリズムにより、Formulaic Sequencesの重要候補として5千8百65万パターンを取り出すことができた。また、複数文の結合から談話セグメントを抽出するプログラムの実装も行いセグメントの抽出も行った。また、FSをデータとして用いることによってword2vecを拡張したFS2vecの実装にとりかかっている。この過程で、27年度は、テキストをword単位でなく、FS単位で分割するアルゴリズムの開発が必要となり、こちらに取り組んだ。また、日本語Can-doリストの記述内に出現する語句を拡張し、実際のコーパスデータ内の語句と結びつけるための表現拡張に取り組んだ。FS2vecのデータに先立ち、全コーパスからword2vecを作成し、特定の単語と関連の強い語がどのように取得できるかの調査も行った。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

字幕データ取得システムは安定運用が行えており、構築を続けているテレビ字幕コーパスも順調に規模を拡大している。これまでのところ、およそテレビ字幕3年分、約6千5百万文のコーパスからFormuaic Sequenceの重要候補として約5千万パターンを取り出すことができている。 MapReduce型のアルゴリズムによって単語単位n-gramの出現数を数え上げ、16万ファイルに出現する各n-gramのマージおよびソートも順調に行うことができている。また、字幕放送の提示時間に基づいて各字幕データを談話セグメントに分割することも行った。

Strategy for Future Research Activity

27年度に開発したMapReduce型のアルゴリズムを効率化し、より大規模なデータが扱えるように拡張する。また5単語Nグラムよりも多い単語数でのパターン抽出も可能な拡張を合わせて行う。拡張した全組み合わせパターンの中からFSとして有効なパターンを抽出するアルゴリズムを洗練させる。会話セグメント内の記述と抽出されたFSを調査し、話題を表す表現、場面を表す表現、目的を表す表現をリストアップする。
Word2vecのFS2vecへの拡張を実現するために、形態素データをFS単位に変換するデータ整備を進める。Can-doの定義文、会話例を整備する。FS2vecを使ってCan-doと適合する会話セグメントを対応付けるアルゴリズムを開発する。適合性の判定を行い、日本語教材を整備する。適合しなかった会話パターン、FSとCan-doとの間の謝り分析を行い、フィードバック資料を作成する。

  • Research Products

    (7 results)

All 2016 2015

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Acknowledgement Compliant: 1 results) Presentation (6 results) (of which Int'l Joint Research: 6 results)

  • [Journal Article] Re-Mining Topics Popular in the Recent Past from a Large-Scale Closed Caption TV Corpus2015

    • Author(s)
      Hajme Mochizuki and Kohji Shibano
    • Journal Title

      International Joural of Future Computer and Communication

      Volume: 4 Pages: 98-103

    • Peer Reviewed / Acknowledgement Compliant
  • [Presentation] Japanese Language Learning System for Understanding a Sentence that has Correct Syntax but has Semantic Errors2016

    • Author(s)
      Hajime Mochizuki
    • Organizer
      the 2nd International Conference on Information Technology (ICIT 2016)
    • Place of Presentation
      Melbourne, Australia
    • Year and Date
      2016-03-03 – 2016-03-04
    • Int'l Joint Research
  • [Presentation] Analyzing Attractiveness of Specific Location Names of Tourist Destination from a Closed Caption TV Corpus2016

    • Author(s)
      Hajime Mochizuki and Kohji Shibano
    • Organizer
      Hawaii University Conferences, Arts, Humanities, Social Sciences & Education (AHSE)
    • Place of Presentation
      Hawaii, USA
    • Year and Date
      2016-01-08 – 2016-01-11
    • Int'l Joint Research
  • [Presentation] Detecting Topics Popular in the Recent Past from a Closed Caption TV Corpus as a Categorized Chronicle data2015

    • Author(s)
      Hajime Mochizuki and Kohji Shibano
    • Organizer
      the 7th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management (KMIS)
    • Place of Presentation
      Lisbon, Portgal
    • Year and Date
      2015-11-12 – 2015-11-14
    • Int'l Joint Research
  • [Presentation] 日本語話し言葉コーパスの構築と会話用例検索システム2015

    • Author(s)
      芝野耕司
    • Organizer
      6th CASTEL/J Hawaii 2015
    • Place of Presentation
      Hawaii, USA
    • Year and Date
      2015-08-07 – 2015-08-08
    • Int'l Joint Research
  • [Presentation] A Quantitative Formulaic Analysis of Large TV Closed Caption Corpus – Pragmatic Use of Utterance End in Japanese Animation Languages2015

    • Author(s)
      Kohji Shibano
    • Organizer
      14th International Pragmatics Conference
    • Place of Presentation
      Antwerp Belgium
    • Year and Date
      2015-07-26 – 2015-07-31
    • Int'l Joint Research
  • [Presentation] Development of a Closed Caption TV Corpus Retrieval System to Seek Video Scenes Containing Useful Expressions for Language Learning2015

    • Author(s)
      Hajime Mochizuki and Kohji Shibano
    • Organizer
      World Conference on Educational Media and Technology (EDMEDIA)
    • Place of Presentation
      Montreal, Canada
    • Year and Date
      2015-06-22 – 2015-06-24
    • Int'l Joint Research

URL: 

Published: 2017-01-06  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi