• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Research-status Report

複数タグセットのタグがついたコーパスによる語義曖昧性解消の転移学習

Research Project

Project/Area Number 18K11421
Research InstitutionTokyo University of Agriculture and Technology

Principal Investigator

古宮 嘉那子  東京農工大学, 工学(系)研究科(研究院), 准教授 (10592339)

Project Period (FY) 2018-04-01 – 2023-03-31
Keywordsコーパス / 語義曖昧性解消 / 辞書 / BERT / 教師なし / 疑似データ
Outline of Annual Research Achievements

BERTを用いたふたつの辞書の語義の対応付けの研究を行い、国内学会で発表を行った。BERTの利用方法を工夫することで、二種類の手法を提案した。
ひとつめは、ある語義をもつ、対象の単語の学習済みのBERTによる出力ベクトルを直接比較して、最も近いベクトルである語義をその対応語義とする手法である。Fine-tuningを利用せず、事前学習モデルの結果をそのまま使って計算する。
もうひとつは、タグ付きコーパスを用いて、ひとつの辞書において同じ語義かどうかというタグつきデータを生成し、これをふたつの辞書の同じ語義かどうかという問題の疑似データとして用いる手法である。この疑似データを用いてBERTのFine-tuningを行うことで、ふたつの辞書の語義の対応付けを行う手法である。これらは、どちらも教師なしの手法である。
同じ問題について昨年国際学会で発表した、bilingual word embeddingsを利用した教師なしの手法では、線形変換とVecMapというに手法両方において、最頻出の語義を回答とする手法のベースラインを上回ることができなかったが、今回の手法では両方とも、最頻出の語義を回答とする手法のベースラインを上回る結果となった。この結果を今年度、国際会議に投稿予定である。
また、昨年提案した複数のコーパスを利用する際に、単語の区切り方が違うという問題に対して、マルチタスク学習を用いた手法に関して、論文を執筆し、現在は投稿中である。
2022年度は論文投稿と発表を主に行う予定である。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

去年までの手法は、最頻出の語義を回答とする手法のベースラインを超えることができなかったが、今年の手法はこのベースラインを超すことができたため、目的を達成したと考えている。この研究結果を論文投稿して発表することで、本研究は一段落すると認識している。

Strategy for Future Research Activity

国内学会で発表した内容を、国際会議の論文にして発表予定である。また、現在投稿している論文に関しても、採録を目指して改善していく予定である。

Causes of Carryover

サバティカルから帰国後、不在時の埋め合わせの仕事があったことと、不在時に学生をとれなかったことから、時間的および人的リソースが思ったほど割けなかったため、研究が遅れていたが、2020年度には、新型コロナウイルスのためにオンライン授業の準備や入試の準備にかなり時間がとられた。2021年に職場を変ったこともあり、遅れは取り戻しつつあるが、まだ完全ではない状態である。
本研究の成果の発表のための国内外の学会の登録料や雑誌の掲載料に利用する。

  • Research Products

    (8 results)

All 2022 2021

All Journal Article (2 results) (of which Peer Reviewed: 2 results,  Open Access: 2 results) Presentation (6 results) (of which Int'l Joint Research: 2 results)

  • [Journal Article] Morphological Analyzer Using the Bi-LSTM Model Only for Japanese Hiragana Sentences2022

    • Author(s)
      Jun Izutsu, Kanako Komiya
    • Journal Title

      International Journal on Natural Language Computing

      Volume: 11 Pages: 29-45

    • DOI

      10.5121/ijnlc.2022.11103

    • Peer Reviewed / Open Access
  • [Journal Article] Extracting Speech Patterns of Japanese Fictional Characters Using Subword Units2022

    • Author(s)
      Mika Kishino, Kanako Komiya
    • Journal Title

      International Journal on Natural Language Computing

      Volume: 11 Pages: 1-14

    • DOI

      10.5121/ijnlc.2022.11101

    • Peer Reviewed / Open Access
  • [Presentation] Morphological Analysis of Japanese Hiragana Sentences Using the Bi-LSTM CRF Model2021

    • Author(s)
      Jun Izutsu, Kanako Komiya
    • Organizer
      10th International Conference on Natural Language Processing (NLP 2021)
    • Int'l Joint Research
  • [Presentation] Extraction of Linguistic Speech Patterns of Japanese Fictional Characters Using Subword Units2021

    • Author(s)
      Mika Kishino, Kanako Komiya
    • Organizer
      10th International Conference on Natural Language Processing (NLP 2021)
    • Int'l Joint Research
  • [Presentation] 現代文 BERT を利用した日本語歴史コーパスの語義曖昧性解消2021

    • Author(s)
      多喜 凪, 古宮嘉那子
    • Organizer
      言語処理学会第28回年次大会
  • [Presentation] BERTを用いた二つの辞書の対応付け2021

    • Author(s)
      河野稜斗, 平林照雄, 古宮嘉那子
    • Organizer
      言語処理学会第28回年次大会
  • [Presentation] 共学習によるレビュー文書からのネガティブな意見文の抽出2021

    • Author(s)
      三戸尚樹, 古宮嘉那子, 佐々木稔
    • Organizer
      言語処理学会第28回年次大会
  • [Presentation] レビューから抽出されたキーフレーズと感情スコアを用いた評判分析2021

    • Author(s)
      HUANG YIPU, 佐々木稔, 古宮嘉那子
    • Organizer
      言語処理学会第28回年次大会

URL: 

Published: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi