2018 年度実績報告書

大規模会話コーパスのＦＳ２ｖｅｃ処理によるＣＥＦＲ　Ｃａｎ-ｄｏ言語教材の開発

研究課題

研究課題/領域番号	15H02794
研究機関	東京外国語大学
研究代表者	望月源東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
研究分担者	芝野耕司東京外国語大学, その他部局等, 名誉教授 (50216024) 佐野洋東京外国語大学, 大学院総合国際学研究院, 教授 (30282776) 藤村知子東京外国語大学, 大学院国際日本学研究院, 教授 (20229040)
研究期間 (年度)	2015-04-01 – 2019-03-31
キーワード	学習コンテンツ開発支援 / eラーニング / 日本語教育 / Formulaic Sequence
研究実績の概要	本研究では研究開始段階の３億３千万語分のテレビ字幕データから，大規模コーパスの拡張を行った。今年度までに，35万番組，１億２千４百万分，１３億３千６百万語超に到達し，大規模会話コーパスを構築した。このコーパスから，複数単語を組み合わせた数百万通りの文字列パターンの頻度統計を取り，断片的な字幕データを字幕の表示時間に基づいて文する際に，字幕データに存在する句読点表示の有無など，表記の揺れに対して，個別の番組データを参照し，プログラムに反映させることで，文復元の精度を向上させた。 FS抽出の際にFSの出現位置を記録する記号化の書式を改善し，今後増え続けるデータの世代管理を可能にする改良を行った。これによりデータ量の関係で難しかった文字単位でのnグラム抽出の目処をたてることができた。FSをキーとした会話セグメントの検索，FS2vec型のDoc2vecによるセグメント間類似度計算，SVDでの次元縮退，K-means法によるクラスタリングの一連のプログラムを完成させた。具体的な対象として，ドラマ，バラエティ，情報番組の中で「いらっしゃいませ」「ください」を含む約1800会話セグメントを15クラスタに分割し，会話セグメント内の話題や場面による分類と対応可能なCan-doを調査した。各クラスタ内の文について，存在するFSを取り出したところ，1つのクラスタに複数回出現するFSが一定数存在すること，またFSの多くは文末の位置に出現すること，話題や場面に関する語までを含むFSは多くないことがわかった。この結果として，文中のFSは文の機能に関係し，FS以外の名詞周辺の語は話題や場面に関係すると想定できることが確認できた。
現在までの達成度 (段落)	平成30年度が最終年度であるため、記入しない。
今後の研究の推進方策	平成30年度が最終年度であるため、記入しない。

研究成果
(1件)

すべて学会発表 (1件) (うち国際学会 1件)

[学会発表] Investigation of Words in Japanese Closed Caption TV Corpus2019
- 著者名/発表者名
  Hajime Mochizuki
- 学会等名
  STEM & STEAM Education Conference, 2019
- 国際学会