研究課題/領域番号 |
19K12093
|
研究機関 | 茨城大学 |
研究代表者 |
新納 浩幸 茨城大学, 理工学研究科(工学野), 教授 (10250987)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | all-words WSD / BERT / Masked Language Model / 半教師あり学習 / Co-training |
研究実績の概要 |
本研究は all-words WSD を系列ラベリング問題として定式化し,順方向 LSTM(Long-Short Term Memory) と逆方向 LSTM の共学習 (以下 Co-training) による半教師あり学習を行うことで,少量のラベル付きデータと大量のラベル なしデータから高精度な all-words WSD システムを構築する手法を確立することを目的とした. 昨年度に報告したとおり,2018 年末に Google が発表した BERT により,本研究を含む自然言語処理の多くの研究が方向転換を余儀なくされている.従来の LSTM が BERT によって完全に凌駕されたからである.本研究についても,本質的には BERT により実現されている.そのため昨年度は BERT の技術調査,及び all-words WSD と BERT との関連を中心に研究を進めた.本年度は BERT を実際に all-words WSD として利用するための手法,及びその手法を用いた他のタスクへの応用に関して研究を進めた.特に BERT が内在する MLM (Masked Language Model)は WSD を行うための核となる仕組みであり,MLM を利用したシステムを構築することで,MLM の能力やその問題点などを調査した.特に MLM を WSD に利用した場合,類義単語を得ることはできるが,語義のラベルを与えることができない.ここでは分類語彙表の語彙番号を語義とすることでその問題に対処する方法を検討した.また BERT を用いる際の領域適応や, BERT の小型化に関する研究も合わせて行った. 本研究課題の研究実績としては,BERT を WSD に応用した研究以外に文書分類に適用した研究などを国際会議と研究会で計 15件の発表を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
本研究が目指したものが BERT により実現可能ということにいち早く気づき,BERT の技術調査を BERT の発表直後から行ったことで,本研究課題に関する無駄な研究を避けることができている.また BERT についてのノウハウも蓄積できた.更に本研究課題で最終年度で行おうとしていた all-words WSD の応用研究をBERT を用いて既にいくつか行えている.
|
今後の研究の推進方策 |
本研究課題に関しては,BERT の出力を all-words WSD の出力と見なすことで解決可能である.また BERT は事前学習済みモデルであり,タスクに応じて転移学習が可能なことから,本研究で問題とした all-words WSD では大量の教師データを必要とするという問題も解決できている.ただし BERT をall-words WSD として利用するためには,まだ 2つの解決すべき課題が残っている.1つは語義ラベルの付与である.BERT が出力する単語の埋め込み表現(ベクトル)は,その単語の意味を表してはいるが,そのベクトルと語義ラベルとの対応関係は不明である.これは曖昧単語の用例をその単語の語義によってクラスタリングできても,作成されたクラスタから語義ラベルを付与できない問題と本質的には同じである.この問題を解決するために,語義ラベルを分類語彙表の概念番号に設定し,BERT の MLM を利用して対象単語との類義語を推定することで,all-words WSD の解決を行う.もう1つの課題は処理時間である.BERT はパラメータ数が約1億1千万個あるために fine-tuning における学習時間と実際の識別における処理時間が多大にかかる.特に all-words WSDに MLM を利用する場合,処理時間が1文内の単語数倍になるために,実質的に all-words WSD は不可能である.この解決のために BERT の小型化を行う.具体的には DistilBERT を利用する.DistilBERT は蒸留というモデル圧縮の手法を利用した BERT の小型版である.これによってモデルの大きさの問題を解決できる.BERT の小型化には他にも様々な手法があるために,all-words WSD に対して有効な手法を試す.
|
次年度使用額が生じた理由 |
2020年に予定していた学会出張が,新型コロナウイルスの影響で中止になったために,未使用額が生じた.来年度に同種の学会で研究発表を行い,その出張費として利用する予定である.新型コロナウイルスが収束せず出張費として利用出来ない場合は,学生アルバイトを利用して本研究の改善のために大規模なデータ構築を行う.
|