• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Research-status Report

方向別 LSTM の共学習による半教師あり all-words WSD

Research Project

Project/Area Number 19K12093
Research InstitutionIbaraki University

Principal Investigator

新納 浩幸  茨城大学, 理工学研究科(工学野), 教授 (10250987)

Project Period (FY) 2019-04-01 – 2022-03-31
Keywordsall-words WSD / BERT / Masked Language Model / 半教師あり学習 / Co-training
Outline of Annual Research Achievements

本研究は all-words WSD を系列ラベリング問題として定式化し,順方向 LSTM(Long-Short Term Memory) と逆方向 LSTM の共学習 (以下 Co-training) による半教師あり学習を行うことで,少量のラベル付きデータと大量のラベル なしデータから高精度な all-words WSD システムを構築する手法を確立することを目的とした.
昨年度に報告したとおり,2018 年末に Google が発表した BERT により,本研究を含む自然言語処理の多くの研究が方向転換を余儀なくされている.従来の LSTM が BERT によって完全に凌駕されたからである.本研究についても,本質的には BERT により実現されている.そのため昨年度は BERT の技術調査,及び all-words WSD と BERT との関連を中心に研究を進めた.本年度は BERT を実際に all-words WSD として利用するための手法,及びその手法を用いた他のタスクへの応用に関して研究を進めた.特に BERT が内在する MLM (Masked Language Model)は WSD を行うための核となる仕組みであり,MLM を利用したシステムを構築することで,MLM の能力やその問題点などを調査した.特に MLM を WSD に利用した場合,類義単語を得ることはできるが,語義のラベルを与えることができない.ここでは分類語彙表の語彙番号を語義とすることでその問題に対処する方法を検討した.また BERT を用いる際の領域適応や, BERT の小型化に関する研究も合わせて行った.
本研究課題の研究実績としては,BERT を WSD に応用した研究以外に文書分類に適用した研究などを国際会議と研究会で計 15件の発表を行った.

Current Status of Research Progress
Current Status of Research Progress

1: Research has progressed more than it was originally planned.

Reason

本研究が目指したものが BERT により実現可能ということにいち早く気づき,BERT の技術調査を BERT の発表直後から行ったことで,本研究課題に関する無駄な研究を避けることができている.また BERT についてのノウハウも蓄積できた.更に本研究課題で最終年度で行おうとしていた all-words WSD の応用研究をBERT を用いて既にいくつか行えている.

Strategy for Future Research Activity

本研究課題に関しては,BERT の出力を all-words WSD の出力と見なすことで解決可能である.また BERT は事前学習済みモデルであり,タスクに応じて転移学習が可能なことから,本研究で問題とした all-words WSD では大量の教師データを必要とするという問題も解決できている.ただし BERT をall-words WSD として利用するためには,まだ 2つの解決すべき課題が残っている.1つは語義ラベルの付与である.BERT が出力する単語の埋め込み表現(ベクトル)は,その単語の意味を表してはいるが,そのベクトルと語義ラベルとの対応関係は不明である.これは曖昧単語の用例をその単語の語義によってクラスタリングできても,作成されたクラスタから語義ラベルを付与できない問題と本質的には同じである.この問題を解決するために,語義ラベルを分類語彙表の概念番号に設定し,BERT の MLM を利用して対象単語との類義語を推定することで,all-words WSD の解決を行う.もう1つの課題は処理時間である.BERT はパラメータ数が約1億1千万個あるために fine-tuning における学習時間と実際の識別における処理時間が多大にかかる.特に all-words WSDに MLM を利用する場合,処理時間が1文内の単語数倍になるために,実質的に all-words WSD は不可能である.この解決のために BERT の小型化を行う.具体的には DistilBERT を利用する.DistilBERT は蒸留というモデル圧縮の手法を利用した BERT の小型版である.これによってモデルの大きさの問題を解決できる.BERT の小型化には他にも様々な手法があるために,all-words WSD に対して有効な手法を試す.

Causes of Carryover

2020年に予定していた学会出張が,新型コロナウイルスの影響で中止になったために,未使用額が生じた.来年度に同種の学会で研究発表を行い,その出張費として利用する予定である.新型コロナウイルスが収束せず出張費として利用出来ない場合は,学生アルバイトを利用して本研究の改善のために大規模なデータ構築を行う.

  • Research Products

    (16 results)

All 2020

All Presentation (15 results) (of which Int'l Joint Research: 8 results,  Invited: 1 results) Book (1 results)

  • [Presentation] Construction of Domain-Specific DistilBERT Model by Using Fine-Tuning2020

    • Author(s)
      Jing Bai, Rui Cao, Wen Ma and Hiroyuki Shinnou
    • Organizer
      TAAI-2020
    • Int'l Joint Research
  • [Presentation] Construction of document feature vectors using BERT2020

    • Author(s)
      Hirotaka Tanaka, Rui Cao, Jing Bai, Wen Ma and Hiroyuki Shinnou
    • Organizer
      TAAI-2020
    • Int'l Joint Research
  • [Presentation] Analysis of Polysemy using Variance Values for Word Embeddings by BERT2020

    • Author(s)
      Yanghuizi Ou, Rui Cao, Jing Bai, Wen Ma and Hiroyuki Shinnou
    • Organizer
      TAAI-2020
    • Int'l Joint Research
  • [Presentation] Determining the Logical Relation between Two Sentences by Using the Masked Language Model of BERT2020

    • Author(s)
      Yi Zhao, Rui Cao, Jing Bai, Wen Ma and Hiroyuki Shinnou
    • Organizer
      TAAI-2020
    • Int'l Joint Research
  • [Presentation] Composing Word Vectors for Japanese Compound Words Using Bilingual Word Embedding2020

    • Author(s)
      Teruo Hirabayashi, Kanako Komiya, Masayuki Asahara and Hiroyuki Shinnou
    • Organizer
      PACLIC-2020
    • Int'l Joint Research
  • [Presentation] Generation and Evaluation of Concept Embeddings Via Fine-Tuning Using Automatically Tagged Corpus2020

    • Author(s)
      Kanako Komiya, Daiki Yaginuma, Masayuki Asahara and Hiroyuki Shinnou
    • Organizer
      PACLIC-2020
    • Int'l Joint Research
  • [Presentation] Evaluation of BERT Models by Using Sentence Clustering2020

    • Author(s)
      Naoki Shibayama, Rui Cao, Jing Bai, Wen Ma and Hiroyuki Shinnou
    • Organizer
      PACLIC-2020
    • Int'l Joint Research
  • [Presentation] Automatic Creation of Correspondence Table of Meaning Tags from Two Dictionaries in One Language Using Bilingual Word Embedding2020

    • Author(s)
      Teruo Hirabayashi, Kanako Komiya, Masayuki Asahara and Hiroyuki Shinnou
    • Organizer
      BUCC-2020
    • Int'l Joint Research
  • [Presentation] Use of BERT for NLP tasks by HuggingFace's transformers2020

    • Author(s)
      Hiroyuki Shinnou
    • Organizer
      ROCLING-2020
    • Invited
  • [Presentation] 二言語 BERT を利用したターゲット言語の教師データを必要としない感情分析2020

    • Author(s)
      荘司響之介, 曹鋭, 白静, 馬ブン, 新納浩幸
    • Organizer
      言語資源活用ワークショップ 2020
  • [Presentation] BERT の Masked Language Model を用いた二文間の接続関係の推定2020

    • Author(s)
      趙一, 曹鋭, 白静, 馬ブン, 新納浩幸
    • Organizer
      言語資源活用ワークショップ 2020
  • [Presentation] BERT による単語埋め込み表現の分散値を用いた語義の広がりの分析2020

    • Author(s)
      欧陽恵子, 曹鋭, 白静, 馬ブン, 新納浩幸
    • Organizer
      言語資源活用ワークショップ 2020
  • [Presentation] Fine-Tuning による領域に特化した DistilBERT モデルの構築2020

    • Author(s)
      新納浩幸, 白静, 曹鋭, 馬ブン
    • Organizer
      第34回人工知能学会全国大会
  • [Presentation] Bilingual Word Embeddingsによる短単位と長単位のアラインメント2020

    • Author(s)
      平林照雄, 古宮嘉那子, 新納浩幸
    • Organizer
      第26回言語処理学会年次大会
  • [Presentation] 文のクラスタリングを用いた BERT 事前学習モデルの評価2020

    • Author(s)
      芝山直希, 曹鋭, 白静, 馬ブン, 新納浩幸
    • Organizer
      第26回言語処理学会年次大会
  • [Book] PyTorchによる物体検出2020

    • Author(s)
      新納浩幸
    • Total Pages
      208
    • Publisher
      オーム社
    • ISBN
      978-4274225932

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi