• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

複数の事前学習モデルを利用した語義曖昧性解消のドメイン適応

Research Project

Project/Area Number 22K12145
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 61030:Intelligent informatics-related
Research InstitutionTokyo University of Agriculture and Technology

Principal Investigator

古宮 嘉那子  東京農工大学, 工学(系)研究科(研究院), 准教授 (10592339)

Project Period (FY) 2022-04-01 – 2025-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2024: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2023: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2022: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Keywords語義曖昧性解消 / 事前学習モデル / 古文 / 言語横断 / 分散表現 / アンサンブル学習 / 単語区切り
Outline of Research at the Start

複数の事前学習モデルを用いた最適なモデルの実現を目指し、①複数の事前学習モデルからの最適なモデルの選択、②複数の事前学習モデルからの新モデル作成の研究を行う。特に①については、(1) ターゲットデータの事前学習モデルに対する未知語率、(2) ターゲットデータの事前学習モデルに対するパープレキシティ、(3)  サブワードを利用した際の語義曖昧性解消の対象単語の加算構成性に注目する予定である。

Outline of Annual Research Achievements

語義曖昧性解消の論文として、22年度に研究会で発表した、古文に現代文のBERTを利用したコーパス中の全単語を対象とした語義曖昧性解消の研究について、国際会議の論文を発表した。また、日本語の語義曖昧性解消について、英語のコーパスを使って学習したモデルを翻訳により利用する手法について研究会で発表した。さらに、BCCWJという日本語の現代語のコーパスとして最大のコーパスに対して、語義曖昧性解消の手法で分類語彙表番号を語義としてすべてに付与する研究を行い、研究会において発表を行った。これら二つの研究会の論文については、国際会議に投稿予定である。
現在、日本語については、古文コーパス(日本語歴史コーパス)を学習に利用した語義曖昧性解消のモデルと、現代語コーパス(BCCWJ)を学習に利用した語義曖昧性のモデル、また、BabelNetを対象として学習を行った語義曖昧性のモデルの三つのモデルを作成した。これらを使い、最終年は、複数の事前学習モデルを利用した語義曖昧性解消のドメイン適応についての研究を行う予定である。
また、副次的な成果として、去年研究会で発表した、日本語歴史コーパスの古文から現代文への翻訳を事前学習モデルであるT5を用いて行った研究について国際会議で発表を行った。さらに、同様に、古文に対する係り受け解析を比較した「日本語Universal Dependenciesの通時的転移可能性について」について研究会で発表を行った。
さらに、語義曖昧性解消と同様のモデルで解くことができる、読み推定の問題について、『日本経済新聞記事オープンコーパス』の漢字読みの調査と題してワークショップで発表した。また、ユニグラムとバイグラムのBERTによる平仮名の形態素解析の論文を執筆した。
また、二つの文系の研究会で招待講演を行った。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

古文(古い日本語)を対象とした語義曖昧性解消の論文を国際会議で発表した。また、同じ手法を使って、現代文の様々な文書を対象とした語義曖昧性解消についても実験を終えている。さらに、英語モデルを使った日本語の語義曖昧性解消の実験についても終わっており、これらを利用して複数の事前学習モデルを利用した語義曖昧性解消のドメイン適応についての研究を24年度に行う予定である。

Strategy for Future Research Activity

まず、今年研究会に出した二本の論文(『翻訳とBabelNetを利用した日本語の語義曖昧性解消』と『『現代日本語書き言葉均衡コーパス』に対する分類語彙表番号悉皆付与』)については、追加実験を行ったうえで、国際会議またはジャーナル論文に投稿したい。副次的な研究についても国際会議またはジャーナル論文に投稿予定である。
さらに、23年度までに作成した三つの語義曖昧性解消のモデルを利用して、複数の事前学習モデルを利用した語義曖昧性解消のドメイン適応についての研究を24年度に行う予定である。

Report

(2 results)
  • 2023 Research-status Report
  • 2022 Research-status Report
  • Research Products

    (17 results)

All 2023 2022

All Journal Article (2 results) (of which Peer Reviewed: 2 results,  Open Access: 2 results) Presentation (15 results) (of which Int'l Joint Research: 4 results,  Invited: 2 results)

  • [Journal Article] Composing Word Embeddings for Compound Words Using Linguistic Knowledge2023

    • Author(s)
      Komiya Kanako、Kono Shinji、Seito Takumi、Hirabayashi Teruo
    • Journal Title

      ACM Transactions on Asian and Low-Resource Language Information Processing

      Volume: 22 Issue: 2 Pages: 1-22

    • DOI

      10.1145/3561299

    • Related Report
      2022 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] Diachronic Domain Adaptation of Word Sense Disambiguation in Corpus of Historical Japanese Using Word Embeddings2022

    • Author(s)
      古宮 嘉那子、田邊 絢、新納 浩幸
    • Journal Title

      国立国語研究所論集 = NINJAL Research Papers

      Volume: 23 Issue: 23 Pages: 59-73

    • DOI

      10.15084/00003566

    • ISSN
      2186-1358
    • URL

      https://repository.ninjal.ac.jp/records/3583

    • Related Report
      2022 Research-status Report
    • Peer Reviewed / Open Access
  • [Presentation] All-Words Word Sense Disambiguation for Historical Japanese2023

    • Author(s)
      Shoma Asada, Kanako Komiya, and Masayuki Asahara
    • Organizer
      The 37th Pacific Asia Conference on Language, Information and Computation
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research
  • [Presentation] Translation from Historical to Contemporary Japanese Using Japanese T52023

    • Author(s)
      Hisao Usui and Kanako Komiya
    • Organizer
      NLP4DH 2023
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research
  • [Presentation] Word Segmentation of Hiragana Sentences Using Hiragana BERT2023

    • Author(s)
      Jun Izutsu, Kanako Komiya, and Hiroyuki Shinnou
    • Organizer
      PRICAI 2023 (LNCS)
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research
  • [Presentation] 『現代日本語書き言葉均衡コーパス』に対する分類語彙表番号悉皆付与2023

    • Author(s)
      浅田 宗磨,古宮嘉那子,浅原 正幸
    • Organizer
      言語処理学会第30回年次大会
    • Related Report
      2023 Research-status Report
  • [Presentation] 日本語Universal Dependenciesの通時的転移可能性について2023

    • Author(s)
      尾崎 太亮,臼井 久生,古宮嘉那子,浅原 正幸,小木曽 智信
    • Organizer
      言語処理学会第30回年次大会
    • Related Report
      2023 Research-status Report
  • [Presentation] 翻訳とBabelNetを利用した日本語の語義曖昧性解消2023

    • Author(s)
      Ganbat Naranbuuvei,浅田宗磨,古宮嘉那子
    • Organizer
      言語処理学会第30回年次大会
    • Related Report
      2023 Research-status Report
  • [Presentation] 『日本経済新聞記事オープンコーパス』の漢字読みの調査2023

    • Author(s)
      大井 恵奈、古宮嘉那子、柏野 和佳子、浅原 正幸
    • Organizer
      国立国語研究所 異分野融合型共同研究 2023年度ワークショップ
    • Related Report
      2023 Research-status Report
  • [Presentation] 語義曖昧性解消 コーパスへの意味タグの付与システム2023

    • Author(s)
      古宮嘉那子
    • Organizer
      語彙・辞書研究会 秋の研究会
    • Related Report
      2023 Research-status Report
    • Invited
  • [Presentation] 近代以前の日本語を対象にした自然言語処理の紹介2023

    • Author(s)
      古宮嘉那子
    • Organizer
      日本語学会2023年度春季大会 シンポジウム「情報技術と大規模テキスト資源がひらく日本語史研究」
    • Related Report
      2023 Research-status Report
    • Invited
  • [Presentation] Word Sense Disambiguation of Corpus of Historical Japanese Using Japanese BERT Trained with Contemporary Texts2022

    • Author(s)
      Kanako Komiya, Nagi Oki and Masayuki Asahara
    • Organizer
      The 36th Pacific Asia Conference on Language, Information and Computation
    • Related Report
      2022 Research-status Report
    • Int'l Joint Research
  • [Presentation] T5を用いた古文から現代文への翻訳2022

    • Author(s)
      臼井久生, 古宮嘉那子
    • Organizer
      言語処理学会第29回年次大会
    • Related Report
      2022 Research-status Report
  • [Presentation] 日本語歴史コーパスのAll-words WSD2022

    • Author(s)
      浅田宗磨, 古宮嘉那子
    • Organizer
      言語処理学会第29回年次大会
    • Related Report
      2022 Research-status Report
  • [Presentation] 疑似訓練データを用いたone-shot 設定における同形異音語の読み推定2022

    • Author(s)
      小林汰一郎, 古宮嘉那子, 新納浩幸
    • Organizer
      言語処理学会第29回年次大会
    • Related Report
      2022 Research-status Report
  • [Presentation] 疑似訓練データを用いたBERTによる同形異音語の読み推定2022

    • Author(s)
      小林汰一郎, 古宮嘉那子, 新納浩幸
    • Organizer
      第253回自然言語処理研究発表会
    • Related Report
      2022 Research-status Report
  • [Presentation] 日本語 PromptBERT におけるプロンプトベース対照学習の有効性とプロンプトの性質の調査2022

    • Author(s)
      芝山 直希, 古宮嘉那子, 新納 浩幸
    • Organizer
      第254回自然言語処理研究発表会
    • Related Report
      2022 Research-status Report

URL: 

Published: 2022-04-19   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi