2018 Fiscal Year Annual Research Report
Development of CEFR Can-do Language Learning Materials by FS2vec Processing of Large-scale Spoken Language Corpus
Project/Area Number |
15H02794
|
Research Institution | Tokyo University of Foreign Studies |
Principal Investigator |
望月 源 東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
|
Co-Investigator(Kenkyū-buntansha) |
芝野 耕司 東京外国語大学, その他部局等, 名誉教授 (50216024)
佐野 洋 東京外国語大学, 大学院総合国際学研究院, 教授 (30282776)
藤村 知子 東京外国語大学, 大学院国際日本学研究院, 教授 (20229040)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | 学習コンテンツ開発支援 / eラーニング / 日本語教育 / Formulaic Sequence |
Outline of Annual Research Achievements |
本研究では研究開始段階の3億3千万語分のテレビ字幕データから,大規模コーパスの拡張を行った。今年度までに,35万番組,1億2千4百万分,13億3千6百万語超に到達し,大規模会話コーパスを構築した。このコーパスから,複数単語を組み合わせた数百万通りの文字列パターンの頻度統計を取り,断片的な字幕データを字幕の表示時間に基づいて文する際に,字幕データに存在する句読点表示の有無など,表記の揺れに対して,個別の番組データを参照し,プログラムに反映させることで,文復元の精度を向上させた。 FS抽出の際にFSの出現位置を記録する記号化の書式を改善し,今後増え続けるデータの世代管理を可能にする改良を行った。これによりデータ量の関係で難しかった文字単位でのnグラム抽出の目処をたてることができた。FSをキーとした会話セグメントの検索,FS2vec型のDoc2vecによるセグメント間類似度計算,SVDでの次元縮退,K-means法によるクラスタリングの一連のプログラムを完成させた。 具体的な対象として,ドラマ,バラエティ,情報番組の中で「いらっしゃいませ」「ください」を含む約1800会話セグメントを15クラスタに分割し,会話セグメント内の話題や場面による分類と対応可能なCan-doを調査した。各クラスタ内の文について,存在するFSを取り出したところ,1つのクラスタに複数回出現するFSが一定数存在すること,またFSの多くは文末の位置に出現すること,話題や場面に関する語までを含むFSは多くないことがわかった。この結果として,文中のFSは文の機能に関係し,FS以外の名詞周辺の語は話題や場面に関係すると想定できることが確認できた。
|
Research Progress Status |
平成30年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
平成30年度が最終年度であるため、記入しない。
|
Research Products
(1 results)