• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2022 年度 実施状況報告書

複数の事前学習モデルを利用した語義曖昧性解消のドメイン適応

研究課題

研究課題/領域番号 22K12145
研究機関東京農工大学

研究代表者

古宮 嘉那子  東京農工大学, 工学(系)研究科(研究院), 准教授 (10592339)

研究期間 (年度) 2022-04-01 – 2025-03-31
キーワード語義曖昧性解消 / 事前学習モデル / 分散表現
研究実績の概要

語義曖昧性解消の論文として、異なった古文と現代文という二つの基準の語義タグを使った研究を行い、分散表現(word2vec)を利用した手法でジャーナルを1報、現代文のBERTを利用したレキシカル・サンプルタスクの研究で国際会議を1報、さらに現代文のBERTを利用したコーパス中の全単語を対象とした語義曖昧性解消の研究で、研究会の論文を1報執筆し、発表を行った。研究会の論文はブラシュアップして国際会議に投稿予定である。さらに、日本語歴史コーパスの語義曖昧性解消の関連論文として、日本語歴史コーパスの古文から現代文への翻訳を事前学習モデルであるT5を用いて行った研究について国内学会で発表を行った。こちらについても、2023年度以降に国際会議に投稿予定である。
また、関連論文として、異なった区切りの異なった単語に関係して、ある複合語の単語の分散表現(word2vec)をそれぞれの構成語から合成する研究について、執筆したジャーナル論文が公開された。
また、副次的な研究として、語義曖昧性解消ではないが、同じ手法を用いた、単語の読みを付与するシステムを作成する研究を行った。こちらについても、異なったタグと皆さえる疑似データがシステムの正解率を上昇させるという結果を示した。この研究は、国内学会で発表済みであるが、2023年度以降に国際会議に投稿予定である。
さらに、関連論文として、「日本語 PromptBERT におけるプロンプトベース対照学習の有効性とプロンプトの性質の調査」の発表を行った。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

語義曖昧性解消の研究として、古文コーパス(日本語歴史コーパス)を用いた実験を行った。分散表現、事前学習モデルによるレキシカルサンプルタスク、またコーパス中の全単語を対象とした語義曖昧性解消の実装が終了している。単語区切りを変えた場合や、タグを変えた場合の実験も予備実験ながら行っている。

今後の研究の推進方策

2023年度は、古文だけではなく、現代文を対象として語義曖昧性解消の実験を行う予定である。また、古文に対しても、前年度に行った事前学習モデルであるBERTを用いた実験だけではなく、Robertaを用いた実験についても実施しつつある。これらを踏まえて、複数の事前学習モデルを利用した場合の語義曖昧性解消についての研究を行う。また、関連研究についてもいくつかのアイディアがあるので、それらに関しても行う予定である。

次年度使用額が生じた理由

コロナの影響により、国際会議がオンラインとなったため、剰余金が生じた。今年度、学生をつれて国際会議に出張予定である。

  • 研究成果

    (8件)

すべて 2023 2022

すべて 雑誌論文 (2件) 学会発表 (6件) (うち国際学会 1件)

  • [雑誌論文] Composing Word Embeddings for Compound Words Using Linguistic Knowledge2023

    • 著者名/発表者名
      Komiya Kanako、Kono Shinji、Seito Takumi、Hirabayashi Teruo
    • 雑誌名

      ACM Transactions on Asian and Low-Resource Language Information Processing

      巻: 22 ページ: 1~22

    • DOI

      10.1145/3561299

  • [雑誌論文] 分散表現を利用した日本語歴史コーパスにおける語義曖昧性解消の通時適応2022

    • 著者名/発表者名
      古宮 嘉那子、田邊 絢、新納 浩幸
    • 雑誌名

      国立国語研究所論集 = NINJAL Research Papers

      巻: 23 ページ: 59~73

    • DOI

      10.15084/00003566

  • [学会発表] Word Sense Disambiguation of Corpus of Historical Japanese Using Japanese BERT Trained with Contemporary Texts2022

    • 著者名/発表者名
      Kanako Komiya, Nagi Oki and Masayuki Asahara
    • 学会等名
      The 36th Pacific Asia Conference on Language, Information and Computation
    • 国際学会
  • [学会発表] T5を用いた古文から現代文への翻訳2022

    • 著者名/発表者名
      臼井久生, 古宮嘉那子
    • 学会等名
      言語処理学会第29回年次大会
  • [学会発表] 日本語歴史コーパスのAll-words WSD2022

    • 著者名/発表者名
      浅田宗磨, 古宮嘉那子
    • 学会等名
      言語処理学会第29回年次大会
  • [学会発表] 疑似訓練データを用いたone-shot 設定における同形異音語の読み推定2022

    • 著者名/発表者名
      小林汰一郎, 古宮嘉那子, 新納浩幸
    • 学会等名
      言語処理学会第29回年次大会
  • [学会発表] 疑似訓練データを用いたBERTによる同形異音語の読み推定2022

    • 著者名/発表者名
      小林汰一郎, 古宮嘉那子, 新納浩幸
    • 学会等名
      第253回自然言語処理研究発表会
  • [学会発表] 日本語 PromptBERT におけるプロンプトベース対照学習の有効性とプロンプトの性質の調査2022

    • 著者名/発表者名
      芝山 直希, 古宮嘉那子, 新納 浩幸
    • 学会等名
      第254回自然言語処理研究発表会

URL: 

公開日: 2023-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi