研究課題/領域番号 |
15H02794
|
研究機関 | 東京外国語大学 |
研究代表者 |
望月 源 東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
|
研究分担者 |
芝野 耕司 東京外国語大学, アジア・アフリカ言語文化研究所, 教授 (50216024)
佐野 洋 東京外国語大学, 大学院総合国際学研究院, 教授 (30282776)
藤村 知子 東京外国語大学, 大学院国際日本学研究院, 教授 (20229040)
|
研究期間 (年度) |
2015-04-01 – 2019-03-31
|
キーワード | 学習コンテンツ開発支援 / eラーニング / 日本語教育 / 自然言語処理 |
研究実績の概要 |
本研究では,計画段階の3億3千万語,5万3千時間分のテレビ字幕データから,9億1千万語,14万6千時間,23万2千番組分に拡張したこれまでに存在していなかった規模の大規模会話コーパスを構築している.このコーパスから,約8千9百90万文を抽出し,字幕表示時間に基づいて文を組み合わせた談話セグメントの抽出をプログラムによって行った.2016年度末の段階で,段落数は2千6百万セグメントに達している.開発したMapReduce型アルゴリズムのプログラムにより,単語のNグラムによる組み合わせパターンを作成し,Formulaic Sequence(FS)の重要候補を出現パターンにより約3千3百万パターンに絞り込んだ.Nグラムは当初の最大5グラムから9グラムに拡張した.このFSを形態素解析辞書として整備し,取り込むことで,形態素の代わりに文をFSで分割した.28年度は,FSで分割されたコーパスを頻度データとすることで,word2vecを拡張したFS2vecの実現を行った.FS2vecを用いて,FSのグループ化を行い,FS2vecでは意味のグループとは限らず,意図や目的を同じくする表現のグループ化が見られるという特徴の分析を行った.また,比較的長い文字列で構成され,出現頻度も多いFSに絞り込むことと,字幕データの番組ジャンル分類への出現偏りを考慮することで,より実用的なFSのリストを取り出す作業に取り掛かっている.取り出されたFSを含む談話セグメントの検索プログラムも作成しており,大量の談話セグメントの中に,特定のCan-doとの対応付けが可能な事例が存在することを確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
字幕データ取得システムは引き続き安定運用が行えており,構築を続けているテレビ字幕コーパスも順調に規模を拡大している.これまでのところ,およそテレビ字幕4年分,約23万2千番組,9億1千万語,8千9百90万文のコーパスデータに達している.前年度にFormulaic Sequenceの重要候補として抽出した約5千万のパターンを,出現頻度,文長,および,ジャンルごとの出現の偏りに対する統計的検定によって絞り込む方法を検討し,先行的に3ジャンルで実験を行った.各ジャンル数千パターンまで絞り込まれることが確認できた.絞り込んだFormulaic Sequenceを含む談話セグメントの検索も可能にし,談話セグメントの内容とCan-doの対応付けに着手することができた.
|
今後の研究の推進方策 |
28年度に引き続き,27年度に開発したMapReduce型アルゴリズムを改良し,より大規模なデータを継続的に扱えるようにする.nグラムベースで抽出した大量のFS候補から有効なパターンを抽出するアルゴリズムを洗練させる.28年度にFormulaic Sequence(FS)から検索可能とした談話セグメントを,クラスタリングするアルゴリズムを開発する.同一FSを含む談話セグメントからできるクラスタごとの特徴を分析し,CEFR Can-doの定義文記述への対応づけを行う.同時に談話セグメント内の話題,場面,目的も分析,分類する.また,FSをFS2vecで拡張した後に,FSを含む談話セグメントとCan-do定義文の対応付いた組み合わせを核として,談話セグメントあるいはセグメントクラスタを検索する手法にも着手し,Can-do教材として適合する談話セグメントの抽出を行う.抽出結果の適合性を判定し,抽出精度向上のためのフィードバック資料の作成も行う.
|