2020 Fiscal Year Annual Research Report
大規模字幕コーパスからの単語・フレーズ・会話のボトムアップ言語教材自動抽出
Project/Area Number |
19H04224
|
Research Institution | Tokyo University of Foreign Studies |
Principal Investigator |
望月 源 東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
|
Co-Investigator(Kenkyū-buntansha) |
芝野 耕司 東京外国語大学, その他部局等, 名誉教授 (50216024)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 学習コンテンツ開発支援 / 自然言語処理 / eラーニング / 分散表現 / 日本語教育 |
Outline of Annual Research Achievements |
これまでに収集したテレビ字幕データのうち,2012年12月から2016年2月分までのデータから抽出したFormulaic Sequences(FS)について,キーフレーズとしての有用性を調査した。具体的には,日本語学習の代表的教科書である東京外国語大学留学生日本語教育センター作成の「初級日本語」に収録の文型パターン320文型,334キーフレーズとの対応付けが可能であるかについて分析調査を行った。結果として,教科書内のキーフレーズの約83%は本研究で抽出したFSに含まれており, 高頻度のFSのうち6%ほどでキーフレーズの半分以上をしめていることがわかり,抽出したFSが日本語教育におけるキーフレーズとの高い一致度を示すことが確認された。 また,前年度に検討したFSの抽出を文字レベルNグラムに拡張するためのアルゴリズムを作成し,実装に着手した。 実装にあたっては,Nグラムをこれまでの1から9としていたものから,制限なしにして計算をする拡張を行ったことにより,FS抽出に膨大な時間がかかるため,アルゴリズムの高速化を進めるとともに,サーバストレージ環境の見直しと増強を同時に進めている。 さらに,先行の基盤研究Bからの継続的な事業として,今年度も引き続き,大規模テレビ字幕コーパスの拡大構築を行っている。本研究開始時点の35万番組,1億2千4百万文,13億3千6百万語規模から,2021年度3月末の段階で,48万2千番組,1億6千7百万文,18億1千6百万語に規模を拡張した。安定的な字幕データ収集を図るため,本年度は字幕データサーバを更新し,収集能力の増強を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
大規模コーパスの継続的な拡張は先行の科研費基盤Bに引き続き取得サーバの運用が行えている。新サーバへの移行も無事に完了し,今後も安定運用の目処がたっている。結果としてコーパス構築も順調に進んでおり,8年分,48万2千番組,1億6千7百万文,18億1千6百万語の規模に到達している。Formulaic Sequences (FS)の計算では,FSの基準単位を文字レベルNグラムにしての取得も可能になった。 一方で,新型コロナウイルス感染症対策としてのオンライン環境整備などの大学全体のインフラ整備業務に占めるエフォートが高くなり,深層学習によるCan-do教材会話抽出手法の開発部分を十分に行うことができなかった。
|
Strategy for Future Research Activity |
まず,周辺文脈内の語に重要度の重み付けをする手法の検討,語義ごとの周辺文脈の情報を利用して語の分散表現を分割するための意味計算を検討する。 大規模字幕コーパスの中でジャンル別に集めたテキストデータごとに分けて現れる語の周辺文脈を利用して,その語がどの程度の寄与率を持つかを測り重み付けをする手法を検討する。 開発済みのFS抽出アルゴリズムの全コーパスへの適用,FS2vecに基づくFSクラスタリングの実装,FSクラスタの場面,機能に基づく分析,FS分散表現をFSの用法ごとに分割する拡張と,各アルゴリズムの洗練を行う。FS抽出をこれまでの1年単位に加え,1ヶ月単位やジャンル単位などの別単位でも行い,より柔軟なFS抽出を可能にする。 文字レベルのNグラムに基づくFS抽出プログラムの実装において高速化を検討する。 また,大規模話し言葉コーパスから会話部分を抽出し,Can-doとの対応付けによる教師データを作成する。深層学習によるテキスト分類を応用したCan-do教材会話の自動抽出手法を開発する。
|