• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Research-status Report

複数タグセットのタグがついたコーパスによる語義曖昧性解消の転移学習

Research Project

Project/Area Number 18K11421
Research InstitutionIbaraki University

Principal Investigator

古宮 嘉那子  茨城大学, 理工学研究科(工学野), 講師 (10592339)

Project Period (FY) 2018-04-01 – 2022-03-31
Keywordsバイリンガル分散表現 / コーパス / 語義曖昧性解消 / 単語 / 単語区切り / 分散表現
Outline of Annual Research Achievements

昨年度、国内学会に出した論文について、国際学会で発表を行った。ひとつめは、分類語彙表の分類番号(意味を表すクラスの番号)と岩波国語辞典の語義の対応をとる研究である。これは分類語彙表の分類番号と岩波国語辞典の語義の両方が付与された、現代日本語書き言葉コーパスを用いて実験を行っている。ilingual word embeddingsを利用して、ふたつの辞書における意味の対応をとる方法であったが、最頻出の語義をとる手法に比べて,正解率を上回ることができなかった。これに対して、Bilingual word embeddingsの新しい手法を試してみたが、やはり最頻出の語義を出力する方が良いという結果になった。
ふたつめは、Fine-tuningを使った分散表現の改良の実験である。
またこれらとは別に、複数のコーパスを利用する際に、単語の区切り方が違うという問題に対して、bilingual word embeddingsを利用した手法と、マルチタスク学習を用いた手法を提案した。前半の手法は国際会議にて発表を行い、後半の手法に関しては、国内学会で発表を行った。
また、ふたつめの研究と、みっつめの研究を評価するために、木構造を持つ概念辞書を用いた、分散表現の評価手法について提案を行い、ふたつめの研究結果と共に論文とした。しかし、今のところ、word2vecを用いた分散表現を使った研究となっているため、BERTを利用すればよりよい結果が得られるのではないかと考えている。そのため、今後はBERTを利用して同様の問題を改善する必要があると考えている。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

新型コロナウイルスによるオンライン授業の対応や、入試業務への対応に時間がかかったため、去年までの遅れを取り戻すには至らなかった。そのため、国際学会での発表は思ったよりも多くできたが、BERTを利用した実験に関してはやり残したところがあると考えている。

Strategy for Future Research Activity

今年度は、二つの目標がある。
ひとつは、単語の区切り方が違うコーパスについて、これまでの結果をまとめて、英語の論文とすることである。
もうひとつは、これまで行ってきた実験を、BERTを使って改善し、よりよい結果を出すことである。

Causes of Carryover

国際学会を四本発表したが、そのすべてが新型コロナウイルスの影響で、オンライン開催となり、また、会議の登録料が無料となったため、次年度使用額が生じた。
国際会議や国内学会が再び現地開催となれば、旅費及び登録料が再びかかるようになると考えている。
繰り越した額は、今年から大学を移り、新たにPC等を購入する必要が出てきたので、それらの支出にあてること、また、今後の研究の発表等に充てたいと考えている。

  • Research Products

    (11 results)

All 2021 2020

All Presentation (11 results) (of which Int'l Joint Research: 4 results)

  • [Presentation] Bi-LSTM CRF モデルを用いた平仮名文の形態素解析2021

    • Author(s)
      井筒順, 古宮嘉那子
    • Organizer
      言語処理学会第27回年次大会
  • [Presentation] 日本語の論文コーパスにおける「問題」の語義アノテーション2021

    • Author(s)
      平林照雄, 河野慎司, 古宮嘉那子, 新納浩幸
    • Organizer
      言語処理学会第27回年次大会
  • [Presentation] SentencePieceを用いたキャラクターの特徴語抽出2021

    • Author(s)
      岸野望叶, 古宮嘉那子
    • Organizer
      言語処理学会第27回年次大会
  • [Presentation] 論文の要旨からのタイトル生成におけるキーワードと分野別fine-tuningの効果2021

    • Author(s)
      金野佑太, 古宮嘉那子
    • Organizer
      言語処理学会第27回年次大会
  • [Presentation] SVMを用いたBCCWJにおける同形異音語の読み推定2021

    • Author(s)
      小林汰一郎, 古宮嘉那子
    • Organizer
      言語処理学会第27回年次大会
  • [Presentation] Automatic Creation of Correspondence Table of Meaning Tags from Two Dictionaries in One Language Using Bilingual Word Embedding2020

    • Author(s)
      Teruo Hirabayashi, Kanako Komiya, Masayuki Asahara and Hiroyuki Shinnou
    • Organizer
      13th BUCC Workshop at LREC 2020
    • Int'l Joint Research
  • [Presentation] Generation and Evaluation of Concept Embeddings Via Fine-Tuning Using Automatically Tagged Corpus2020

    • Author(s)
      Kanako Komiya, Daiki Yaginuma, Masayuki Asahara, Hiroyuki Shinnou
    • Organizer
      PACLIC 2020
    • Int'l Joint Research
  • [Presentation] Composing Word Vectors for Japanese Compound Words Using Dependency Relations2020

    • Author(s)
      Teruo Hirabayashi, Kanako Komiya, Masayuki Asahara
    • Organizer
      PACLIC 2020
    • Int'l Joint Research
  • [Presentation] Neural Machine Translation from Historical Japanese to Contemporary Japanese Using Diachronically Domain-Adapted Word Embeddings2020

    • Author(s)
      Masashi Takaku, Tosho Hirasawa, Mamoru Komachi, Kanako Komiya
    • Organizer
      PACLIC 2020
    • Int'l Joint Research
  • [Presentation] 複数の事前学習済みモデルを用いたQAサイト質問回答ペアの分類2020

    • Author(s)
      佐々木稔, 古宮嘉那子
    • Organizer
      IDRユーザフォーラム 2020
  • [Presentation] 品詞情報を利用した複合語の分散表現の合成2020

    • Author(s)
      河野 慎司, 古宮嘉那子
    • Organizer
      音声言語および自然言語処理シンポジウム

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi