研究課題/領域番号 |
19K12093
|
研究機関 | 茨城大学 |
研究代表者 |
新納 浩幸 茨城大学, 理工学研究科(工学野), 教授 (10250987)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
キーワード | all-words WSD / 半教師あり学習 / BERT / Co-training |
研究実績の概要 |
本研究は all-words WSD を系列ラベリング問題として定式化し,順方向 LSTM(Long-Short Term Memory) と逆方向 LSTM の共学習 (以下 Co-training) による半教師あり学習を行うことで,少量のラベル付きデータと大量のラベルなしデータから高精度な all-words WSD システムを構築する手法を確立することを目的とした. 申請当時は all-words WSD の実現に関して,本提案手法は有効と思われたが,2018 年末に Google が発表した BERT により,本研究,及び自然言語処理の多くの研究が方向転換を余儀なくされている.BERT は Self-Attention 機構を利用した事前学習モデルである.具体的には入力単語列を,Multi-head Attention を複数回適用することで,単語の埋め込み表現列に変換する.このとき作成される単語の埋め込み表現は文脈依存の形となっている.つまり BERT が出力する単語の埋め込み表現列自体が all-words WSD を実現していると言える.しかも BERT の学習は自己教師あり学習の形であり,本研究が問題とした教師データを構築するコストが高いという問題も受けない.このため 2019年では BERT の技術調査,及び all-words WSD との関連を中心に研究を進めた. 本研究課題の研究実績としては,本研究が提案した Co-training の利用ではなく,自己学習の形で all-words WSD に取り組んだ研究や,WSD と BERT の関係を調べた研究及び,all-words WSD の応用と見なして BERT を文書分類に適用した研究などを国際会議と研究会で計 15件の発表を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
本研究が目指したものが BERT により実現可能ということにいち早く気づき,BERT の技術調査を BERT の発表直後から行ったことで,本研究課題に関する無駄な研究を避けることができている.また BERT についてのノウハウも蓄積できた.更に本研究課題で最終年度で行おうとしていた all-words WSD の応用研究をBERT を用いて既にいくつか行えている.
|
今後の研究の推進方策 |
本研究課題に関しては,BERT の出力を all-words WSD の出力と見なすことで,all-words WSD による応用段階に入ったと言える.BERT は非常に高機能なall-words WSD と見なすことができるが,モデル自体が巨大であり,モデルの構築やモデルを利用した推論処理が重い,といった問題がある.また BERT 自体がその学習に利用したコーパスの領域に依存するという領域依存の問題もある.これらの問題を総合的に解決する手法を現在考案しており,この方向で研究を進めたい.その際のタスクは all-words WSD の応用タスクを想定する. 具体的には DistilBERT を利用する.DistilBERT は蒸留というモデル圧縮の手法を利用した BERT の小型版である.DistilBERT の学習の際に初期値を既存の BERT として,学習コーパスをタスクに特化したものにすることでモデルの大きさの問題と,領域依存の問題を同時に解決できる.これを all-words WSD の応用タスクに試みて,その有効性を調べる.具体的には WSD の領域適応や文書分類を想定している.
|
次年度使用額が生じた理由 |
2020年3月に予定していた学会出張が,新型コロナウイルスの影響で中止になったために,当該助成金が生じた.来年度に同種の学会で研究発表を行い,その出張費として利用する予定である.
|