研究課題/領域番号 |
19H04224
|
研究機関 | 東京外国語大学 |
研究代表者 |
望月 源 東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
|
研究分担者 |
芝野 耕司 東京外国語大学, その他部局等, 名誉教授 (50216024)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | 学習コンテンツ開発支援 / 自然言語処理 / eラーニング / 日本語教育 |
研究実績の概要 |
前年度から実装に着手していたNグラムの計算を単語レベルから文字レベルNグラムに拡張し,N数の上限をなくすためのアルゴリズムを完成し実装した.単語レベルで1から9単語としていた制限から,1文の全文字数までの制限なしにして計算をする拡張にともない,Nグラムのソートとマージに必要な処理時間とメモリ容量が増加したためサーバのメモリ増強やストレージ増量およびサーバストレージ間の通信速度向上などの環境整備およびアルゴリズムの再考によって対応した. また,単語レベルのNグラムから有意なNグラムを選択する手法として,単純な頻度統計から各Nグラムが出現する文脈を考慮し,同一文脈に出現する異なるNグラムの中で最長のものを抽出する「統合文脈Nグラム」アルゴリズムに変更し,新たなFormulaic Sequences抽出手法を確立した. 深層学習によるCan-do会話教材の自動抽出のために,教師データとなる会話データの整備を進めた.具体的には,大規模字幕コーパスの中で会話が豊富に含まれるアニメーション分野について,会話部分のセグメントを約1,600,人手で取り出し,Can-doとの対応付け作業をおこなった.今後,このデータを,新たな会話部分の抽出とCan-doラベル分類のための機械学習に応用する予定である. 2012年12月から続く,大規模字幕コーパスの継続的な拡張は今年度も継続的に実施し,コーパス構築サーバの安定運用の結果,2022年3月時点で,約53万1,000番組,約1,854万文,単語数約19億9,727万語の巨大コーパスに発展している.(前年度から約6万7千番組,約2,238万文,約2億4,494万語の増加)
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
大規模コーパスの継続的な拡張は先行の科研費基盤Bに引き続き,取得サーバの運用を順調に行うことができている.前年度以降済みの新サーバは安定運用しておりコーパスデータは順調に規模を拡大している.9年分,53万1千番組,1億8千5百万文,19億9千7百万語の規模に到達している.Formulaic Sequences (FS)の計算では,FSの基準単位を文字レベルNグラムで文字数制限なしにしての取得も可能になった.また,新たな統合文脈NグラムによるFS抽出への切り替えでFSの抽出精度向上ができた.深層学習のためのCan-do教材会話抽出手法の開発にも着手開始している.
|
今後の研究の推進方策 |
新たに開発した統合文脈Nグラムにより,FSの再抽出を行う.コーパスが9年分になったので,全コーパスから新しいFSを抽出し,FS2vecを計算する.また,この手法で得られたFSの性質について詳細が明らかでないため,内容を確認する. 現在着手中の,大規模字幕コーパスの中でジャンル別に集めたテキストデータごとに分けて現れる語の周辺文脈を利用して,その語がどの程度の寄与率を持つかを測り重み付けをする手法を確立する.また,FS2vecに基づくFSクラスタリングの実装,FSクラスタの場面,機能に基づく分析,FS分散表現をFSの用法ごとに分割する拡張と,各アルゴリズムの洗練を引き続き行う。新し統合文脈Nグラムによる方法においても,文字レベルのNグラムに基づくFS抽出プログラムの実装を行う. また,今年度作成した教師データを用いて,大規模話し言葉コーパスから会話部分を抽出し,Candoとの対応付けおこなう,深層学習によるテキスト分類を応用したCan-do教材会話の自動抽出手法を開発する。
|