• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2020 年度 実施状況報告書

複数タグセットのタグがついたコーパスによる語義曖昧性解消の転移学習

研究課題

研究課題/領域番号 18K11421
研究機関茨城大学

研究代表者

古宮 嘉那子  茨城大学, 理工学研究科(工学野), 講師 (10592339)

研究期間 (年度) 2018-04-01 – 2022-03-31
キーワードバイリンガル分散表現 / コーパス / 語義曖昧性解消 / 単語 / 単語区切り / 分散表現
研究実績の概要

昨年度、国内学会に出した論文について、国際学会で発表を行った。ひとつめは、分類語彙表の分類番号(意味を表すクラスの番号)と岩波国語辞典の語義の対応をとる研究である。これは分類語彙表の分類番号と岩波国語辞典の語義の両方が付与された、現代日本語書き言葉コーパスを用いて実験を行っている。ilingual word embeddingsを利用して、ふたつの辞書における意味の対応をとる方法であったが、最頻出の語義をとる手法に比べて,正解率を上回ることができなかった。これに対して、Bilingual word embeddingsの新しい手法を試してみたが、やはり最頻出の語義を出力する方が良いという結果になった。
ふたつめは、Fine-tuningを使った分散表現の改良の実験である。
またこれらとは別に、複数のコーパスを利用する際に、単語の区切り方が違うという問題に対して、bilingual word embeddingsを利用した手法と、マルチタスク学習を用いた手法を提案した。前半の手法は国際会議にて発表を行い、後半の手法に関しては、国内学会で発表を行った。
また、ふたつめの研究と、みっつめの研究を評価するために、木構造を持つ概念辞書を用いた、分散表現の評価手法について提案を行い、ふたつめの研究結果と共に論文とした。しかし、今のところ、word2vecを用いた分散表現を使った研究となっているため、BERTを利用すればよりよい結果が得られるのではないかと考えている。そのため、今後はBERTを利用して同様の問題を改善する必要があると考えている。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

新型コロナウイルスによるオンライン授業の対応や、入試業務への対応に時間がかかったため、去年までの遅れを取り戻すには至らなかった。そのため、国際学会での発表は思ったよりも多くできたが、BERTを利用した実験に関してはやり残したところがあると考えている。

今後の研究の推進方策

今年度は、二つの目標がある。
ひとつは、単語の区切り方が違うコーパスについて、これまでの結果をまとめて、英語の論文とすることである。
もうひとつは、これまで行ってきた実験を、BERTを使って改善し、よりよい結果を出すことである。

次年度使用額が生じた理由

国際学会を四本発表したが、そのすべてが新型コロナウイルスの影響で、オンライン開催となり、また、会議の登録料が無料となったため、次年度使用額が生じた。
国際会議や国内学会が再び現地開催となれば、旅費及び登録料が再びかかるようになると考えている。
繰り越した額は、今年から大学を移り、新たにPC等を購入する必要が出てきたので、それらの支出にあてること、また、今後の研究の発表等に充てたいと考えている。

  • 研究成果

    (11件)

すべて 2021 2020

すべて 学会発表 (11件) (うち国際学会 4件)

  • [学会発表] Bi-LSTM CRF モデルを用いた平仮名文の形態素解析2021

    • 著者名/発表者名
      井筒順, 古宮嘉那子
    • 学会等名
      言語処理学会第27回年次大会
  • [学会発表] 日本語の論文コーパスにおける「問題」の語義アノテーション2021

    • 著者名/発表者名
      平林照雄, 河野慎司, 古宮嘉那子, 新納浩幸
    • 学会等名
      言語処理学会第27回年次大会
  • [学会発表] SentencePieceを用いたキャラクターの特徴語抽出2021

    • 著者名/発表者名
      岸野望叶, 古宮嘉那子
    • 学会等名
      言語処理学会第27回年次大会
  • [学会発表] 論文の要旨からのタイトル生成におけるキーワードと分野別fine-tuningの効果2021

    • 著者名/発表者名
      金野佑太, 古宮嘉那子
    • 学会等名
      言語処理学会第27回年次大会
  • [学会発表] SVMを用いたBCCWJにおける同形異音語の読み推定2021

    • 著者名/発表者名
      小林汰一郎, 古宮嘉那子
    • 学会等名
      言語処理学会第27回年次大会
  • [学会発表] Automatic Creation of Correspondence Table of Meaning Tags from Two Dictionaries in One Language Using Bilingual Word Embedding2020

    • 著者名/発表者名
      Teruo Hirabayashi, Kanako Komiya, Masayuki Asahara and Hiroyuki Shinnou
    • 学会等名
      13th BUCC Workshop at LREC 2020
    • 国際学会
  • [学会発表] Generation and Evaluation of Concept Embeddings Via Fine-Tuning Using Automatically Tagged Corpus2020

    • 著者名/発表者名
      Kanako Komiya, Daiki Yaginuma, Masayuki Asahara, Hiroyuki Shinnou
    • 学会等名
      PACLIC 2020
    • 国際学会
  • [学会発表] Composing Word Vectors for Japanese Compound Words Using Dependency Relations2020

    • 著者名/発表者名
      Teruo Hirabayashi, Kanako Komiya, Masayuki Asahara
    • 学会等名
      PACLIC 2020
    • 国際学会
  • [学会発表] Neural Machine Translation from Historical Japanese to Contemporary Japanese Using Diachronically Domain-Adapted Word Embeddings2020

    • 著者名/発表者名
      Masashi Takaku, Tosho Hirasawa, Mamoru Komachi, Kanako Komiya
    • 学会等名
      PACLIC 2020
    • 国際学会
  • [学会発表] 複数の事前学習済みモデルを用いたQAサイト質問回答ペアの分類2020

    • 著者名/発表者名
      佐々木稔, 古宮嘉那子
    • 学会等名
      IDRユーザフォーラム 2020
  • [学会発表] 品詞情報を利用した複合語の分散表現の合成2020

    • 著者名/発表者名
      河野 慎司, 古宮嘉那子
    • 学会等名
      音声言語および自然言語処理シンポジウム

URL: 

公開日: 2021-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi