研究課題/領域番号 |
15H02794
|
研究機関 | 東京外国語大学 |
研究代表者 |
望月 源 東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
|
研究分担者 |
芝野 耕司 東京外国語大学, その他部局等, 名誉教授 (50216024)
佐野 洋 東京外国語大学, 大学院総合国際学研究院, 教授 (30282776)
藤村 知子 東京外国語大学, 大学院国際日本学研究院, 教授 (20229040)
|
研究期間 (年度) |
2015-04-01 – 2019-03-31
|
キーワード | 学習コンテンツ開発支援 / eラーニング / 日本語教育 / Formulaic Sequence |
研究実績の概要 |
本研究では研究開始段階の3億3千万語分のテレビ字幕データから,大規模コーパスの拡張を行った。今年度までに,35万番組,1億2千4百万分,13億3千6百万語超に到達し,大規模会話コーパスを構築した。このコーパスから,複数単語を組み合わせた数百万通りの文字列パターンの頻度統計を取り,断片的な字幕データを字幕の表示時間に基づいて文する際に,字幕データに存在する句読点表示の有無など,表記の揺れに対して,個別の番組データを参照し,プログラムに反映させることで,文復元の精度を向上させた。 FS抽出の際にFSの出現位置を記録する記号化の書式を改善し,今後増え続けるデータの世代管理を可能にする改良を行った。これによりデータ量の関係で難しかった文字単位でのnグラム抽出の目処をたてることができた。FSをキーとした会話セグメントの検索,FS2vec型のDoc2vecによるセグメント間類似度計算,SVDでの次元縮退,K-means法によるクラスタリングの一連のプログラムを完成させた。 具体的な対象として,ドラマ,バラエティ,情報番組の中で「いらっしゃいませ」「ください」を含む約1800会話セグメントを15クラスタに分割し,会話セグメント内の話題や場面による分類と対応可能なCan-doを調査した。各クラスタ内の文について,存在するFSを取り出したところ,1つのクラスタに複数回出現するFSが一定数存在すること,またFSの多くは文末の位置に出現すること,話題や場面に関する語までを含むFSは多くないことがわかった。この結果として,文中のFSは文の機能に関係し,FS以外の名詞周辺の語は話題や場面に関係すると想定できることが確認できた。
|
現在までの達成度 (段落) |
平成30年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
平成30年度が最終年度であるため、記入しない。
|