• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2018 年度 実績報告書

大規模会話コーパスのFS2vec処理によるCEFR Can-do言語教材の開発

研究課題

研究課題/領域番号 15H02794
研究機関東京外国語大学

研究代表者

望月 源  東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)

研究分担者 芝野 耕司  東京外国語大学, その他部局等, 名誉教授 (50216024)
佐野 洋  東京外国語大学, 大学院総合国際学研究院, 教授 (30282776)
藤村 知子  東京外国語大学, 大学院国際日本学研究院, 教授 (20229040)
研究期間 (年度) 2015-04-01 – 2019-03-31
キーワード学習コンテンツ開発支援 / eラーニング / 日本語教育 / Formulaic Sequence
研究実績の概要

本研究では研究開始段階の3億3千万語分のテレビ字幕データから,大規模コーパスの拡張を行った。今年度までに,35万番組,1億2千4百万分,13億3千6百万語超に到達し,大規模会話コーパスを構築した。このコーパスから,複数単語を組み合わせた数百万通りの文字列パターンの頻度統計を取り,断片的な字幕データを字幕の表示時間に基づいて文する際に,字幕データに存在する句読点表示の有無など,表記の揺れに対して,個別の番組データを参照し,プログラムに反映させることで,文復元の精度を向上させた。
FS抽出の際にFSの出現位置を記録する記号化の書式を改善し,今後増え続けるデータの世代管理を可能にする改良を行った。これによりデータ量の関係で難しかった文字単位でのnグラム抽出の目処をたてることができた。FSをキーとした会話セグメントの検索,FS2vec型のDoc2vecによるセグメント間類似度計算,SVDでの次元縮退,K-means法によるクラスタリングの一連のプログラムを完成させた。
具体的な対象として,ドラマ,バラエティ,情報番組の中で「いらっしゃいませ」「ください」を含む約1800会話セグメントを15クラスタに分割し,会話セグメント内の話題や場面による分類と対応可能なCan-doを調査した。各クラスタ内の文について,存在するFSを取り出したところ,1つのクラスタに複数回出現するFSが一定数存在すること,またFSの多くは文末の位置に出現すること,話題や場面に関する語までを含むFSは多くないことがわかった。この結果として,文中のFSは文の機能に関係し,FS以外の名詞周辺の語は話題や場面に関係すると想定できることが確認できた。

現在までの達成度 (段落)

平成30年度が最終年度であるため、記入しない。

今後の研究の推進方策

平成30年度が最終年度であるため、記入しない。

  • 研究成果

    (1件)

すべて 2019

すべて 学会発表 (1件) (うち国際学会 1件)

  • [学会発表] Investigation of Words in Japanese Closed Caption TV Corpus2019

    • 著者名/発表者名
      Hajime Mochizuki
    • 学会等名
      STEM & STEAM Education Conference, 2019
    • 国際学会

URL: 

公開日: 2019-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi