研究課題/領域番号 |
19K12093
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 茨城大学 |
研究代表者 |
新納 浩幸 茨城大学, 理工学研究科(工学野), 教授 (10250987)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2020年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2019年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | all-words WSD / 半教師あり学習 / Co-training / BERT / Masked Language Model / 語義曖昧性解消 / LSTM |
研究開始時の研究の概要 |
語義曖昧性解消 (Word Sense Disambiguation, 以下 WSD) は文中の多義語の語義を推定する処理であり、all-words WSD は入力文内の全ての単語に対して語義を付与する処理である。all-words WSD は通常の教師あり学習では、必要となるラベル付き訓練データが膨大のため実現できない。ここでは本研究では順方向 LSTM と逆方向 LSTM の共学習 (以下Co-training) による半教師あり学習を行うことで、少量のラベル付きデータと大量のラベルなしデータからall-words WSD を実現する手法を確立する。
|
研究成果の概要 |
一般に単語は複数の語義(意味)を持つ.入力文内の各単語にその文における語義を与えるタスクが all-words WSD である.本研究ではこのタスクを解くモデルを双方向 LSTM に設定し,Co-training という半教師あり学習を用いてモデルの学習を行った.LSTM の後継モデルである BERT を利用することで本タスクが解決できるため,BERT の利用法を調査し,本タスクも含め様々なタスクに BERT を適用する方法を示した.
|
研究成果の学術的意義や社会的意義 |
自然言語処理の各種タスクは機械学習を利用することで解決できる.しかし機械学習で必要とされる訓練データの構築コストが大きいという問題がある.本研究のタスクの all-words WSD はその問題が特に顕著である.BERT は事前学習済みモデルであり,BERT を利用することで少量の訓練データから高精度のモデルを学習できる.研究課題の含め,各種タスクに BERT の利用する方法を示すことができた.
|