2019 Fiscal Year Annual Research Report
大規模字幕コーパスからの単語・フレーズ・会話のボトムアップ言語教材自動抽出
Project/Area Number |
19H04224
|
Research Institution | Tokyo University of Foreign Studies |
Principal Investigator |
望月 源 東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
|
Co-Investigator(Kenkyū-buntansha) |
芝野 耕司 東京外国語大学, その他部局等, 名誉教授 (50216024)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 学習コンテンツ開発支援 / 自然言語処理 / eラーニング / 分散表現 / 日本語教育 |
Outline of Annual Research Achievements |
本研究では,語の多様性とは何か,各語義が分散表現上でどのように重みづけられるのかを探ることで,word2vecにより語の多義をまとめて表現された分散表現を個別語義文脈によって分割する計算方法を探っている.本年度においては,辞書の語義ごとの重要度の重み付けをする手法を検討,語義ごとの周辺文脈の情報を利用して語の分散表現を分割するための意味計算を検討した.辞書の語義ごとの用例を対象として,用例文内の単語列から見出し語の語義の決定に寄与する単語の判定をする方法を検討した.また,Formulaic Sequences(FS)を抽出するアルゴリズムを再検討し,これまで収集した全コーパスへの適応を行った.FSの抽出を単語レベルのNグラムから,文字レベルのNグラムに拡張するため,実装アルゴリズムの検討を始めた. さらに,先行の基盤研究Bからの継続的な事業として,引き続き,大規模テレビ字幕コーパスの拡大構築を行っている.本研究開始時点の35万番組,1億2千4百万文,13億3千6百万語規模から,本年度末の段階で,41万8千番組,4394時間,1億4千6百万文,15億8千4百万語に規模を拡張した. 収集したコーパスにおける単語の異なり語数,異なり語ごとの出現頻度,品詞別出現頻度などの基本語彙調査を行いコーパスに現れる言語とつして基本的な特徴を確認した.各年ごとの推移を過去6年間について比較したところ,少なくとも頻出する上位数百語についてはどのとしもほぼ同様の傾向が見られ言語使用の普遍性が確認された.学習すべき表現のリストが存在することが暗示された.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
大規模コーパスの継続的な拡張は先行の科研費基盤Bに引き続き取得サーバの運用が行えている.結果としてコーパス構築も順調に進んでおり,7年分,41万8千番組,4394時間,1億4千6百万文,15億8千4百万語の規模に到達している.Formulaic Sequences (FS)の計算は,1年単位で処理を行い,収集したデータ全体に対して適用することが可能になった.またFSの基準単位を単語Nグラムから文字Nグラムに切り替えるための検討に取り掛かることができた.
|
Strategy for Future Research Activity |
本年度は,2019年度に引き続き,辞書の語義ごとの用例を対象として,用例文内の単語列から見出し語の語義の決定に寄与する語を判定する。また,大規模コーパス中に現れる語の周辺文脈についても,その語かどの程度の寄与率を持つかを測り重み付けをする手法を検討する。 また,昨年度に引き続き,TV字幕に基づく大規模話し言葉コーパスからのFS抽出を行い,word2vecをFSによって拡張したFS2vecによりFSの分散表現を獲得する。また,単語レベルNグラムに基づくFS抽出に加えて,語レベルのNグラムに基づくFS抽出プログラムの実装をする。引き続き,FSのクラスタリング手法を開発し,FSクラスタ内の各FS内の場面,機能について調査し項目をリストアップする。 Can-do教材抽出では,昨年度に引き続き,大規模話し言葉コーパスから会話部分を抽出し,Can-doとの対応付けによる教師データを作成する。深層学習によるテキスト分類を応用したCan-do教材会話の自動抽出手法を開発する。
|
Research Products
(3 results)