研究課題/領域番号 |
15H02794
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
学習支援システム
|
研究機関 | 東京外国語大学 |
研究代表者 |
望月 源 東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
|
研究分担者 |
芝野 耕司 東京外国語大学, その他部局等, 名誉教授 (50216024)
佐野 洋 東京外国語大学, 大学院総合国際学研究院, 教授 (30282776)
藤村 知子 東京外国語大学, 大学院国際日本学研究院, 教授 (20229040)
|
研究期間 (年度) |
2015-04-01 – 2019-03-31
|
研究課題ステータス |
完了 (2018年度)
|
配分額 *注記 |
15,340千円 (直接経費: 11,800千円、間接経費: 3,540千円)
2018年度: 3,120千円 (直接経費: 2,400千円、間接経費: 720千円)
2017年度: 3,640千円 (直接経費: 2,800千円、間接経費: 840千円)
2016年度: 3,640千円 (直接経費: 2,800千円、間接経費: 840千円)
2015年度: 4,940千円 (直接経費: 3,800千円、間接経費: 1,140千円)
|
キーワード | 学習コンテンツ開発支援 / eラーニング / 日本語教育 / 自然言語処理 / Formulaic Sequences / Formulaic Sequence / 学習コンテンツ開発 |
研究成果の概要 |
我々は,日本語テレビ字幕(CCTV)コーパスからフォーミュライックシーケンス(FS)を抽出する方法を開発した。本研究では,FSの候補として,重要なn-gramをCCTVコーパスから抽出する。各n-gramの出現頻度を計算するため,我々は大量のn-gramをソートし,マージするプログラムをMapReduceアルゴリズムに基づき開発した。会話セグメント内の話題や場面による分類を行い,対応可能なCan-doの存在を確認した。字幕コーパスは拡張を続け,13億語規模に拡大した。研究成果は,AAAL,EDMEDIA, E-Learnなどの国際学会を中心に査読付き論文発表を行なった。
|
研究成果の学術的意義や社会的意義 |
これまで存在していなかった大規模な日本語会話コーパスの構築を続け,6年以上にわたる日本のテレビ番組の字幕データを整備した。規模は35万番組,1億2千4百万文,13億3千6百万語超に達した。この大規模なコーパスから,日本語学習教材にも応用できる特別な意味を持つ複数単語のまとまりであるFormulaic Sequence(定型表現)を大量に抽出した。定型表現を核にして,コーパス内の会話セグメントを取り出し,セグメント内の定型表現が表す機能と,各セグメントの話題,場面をCan-doと対応づけることで有益な教材が作成できることを確認した。
|