研究課題/領域番号 |
19H04224
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
審査区分 |
小区分62030:学習支援システム関連
|
研究機関 | 東京外国語大学 |
研究代表者 |
望月 源 東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
|
研究分担者 |
芝野 耕司 東京外国語大学, その他部局等, 名誉教授 (50216024)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
17,160千円 (直接経費: 13,200千円、間接経費: 3,960千円)
2022年度: 3,640千円 (直接経費: 2,800千円、間接経費: 840千円)
2021年度: 3,900千円 (直接経費: 3,000千円、間接経費: 900千円)
2020年度: 4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2019年度: 5,330千円 (直接経費: 4,100千円、間接経費: 1,230千円)
|
キーワード | 学習コンテンツ開発支援 / eラーニング / 日本語教育 / 自然言語処理 / Formulaic Sequences / 分散表現 |
研究開始時の研究の概要 |
この研究では,我々のTV字幕に基づく大規模話し言葉コーパスから,語,フレーズ,会話という言語単位のボトムアップな組み上げによって,言語教育Can-doに対応する言語教材の自動抽出を試みるとともに,Can-doとキーフレーズの対応付けも行う。 具体的には,(1)語の分散表現を語義ごとに分割する計算方法を探る。(2)ひとかたまりの意味を持つフレーズであるFSの網羅的抽出と語用論的意味分析による知識化を行い,FS分散表現とそのFSの用途の違いによる分割計算を可能にする。(3)FS分散表現の深層学習によるCan-do会話教材の自動抽出により,Can-doに対応するキーフレーズを抽出する。
|
研究成果の概要 |
我々は,これまでなかったサイズの異なるnグラムの頻度を一括して比較可能な統合文脈nグラムを開発し,複数の語,単語を組み合わせた定型表現(フォーミュライックシーケンス,FS)を抽出した。FSの分散表現でのクラスタリングにより表層表現は異なるが機能的に類似した「機能別フレーズ集合」としてFSのクラスタを獲得できることが確認できた。コーパス内の会話部分とCan-doを対応づけした教師データを作成し深層学習モデルによる教材会話の自動抽出も試み一定の成果を得た。字幕コーパスは拡張を続け,22億語規模に拡大した。研究成果は,EDMEDIA,E-Learnなどの国際学会を中心に査読付き論文発表を行なった。
|
研究成果の学術的意義や社会的意義 |
大規模日本語会話コーパスの構築を続け,10年以上にわたる日本のテレビ番組の字幕データを整備し,59万8千番組,2億8百文,22億5千万語超に達した。また,コーパスの語彙調査を行い,テレビ字幕データが言語教材として十分に有益であることを確認した。これまで実現していなかったサイズの異なるnグラムの頻度を一括して比較可能な統合文脈nグラムを開発したコーパス内のすべての文から定型表現としてフォーミュライックシーケンス,FSの抽出を行い,FSが日本語教科書の重要フレーズを含むことを確認した。日本語Can-doに対応した会話データを教師データとして整備し,機械学習モデルでの会話セグメント自動抽出を行った。
|