• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Research-status Report

語義曖昧性解消技術と領域適応手法を利用した情報抽出手法の研究開発

Research Project

Project/Area Number 17KK0002
Research InstitutionTokyo University of Agriculture and Technology

Principal Investigator

古宮 嘉那子  東京農工大学, 工学(系)研究科(研究院), 准教授 (10592339)

Project Period (FY) 2018 – 2022
Keywordsコーパス / 語義曖昧性解消 / 問題抽出 / コーパス作成 / アノテーション / BERT
Outline of Annual Research Achievements

『日本語の論文コーパスにおける「問題」の語義アノテーション』を拡張し、「問題」およびその類義語の意味がproblematicなのかtaskなのかについて、2020年度に策定したアノテーションルールに従って、複数の学生により人手による追加のアノテーションを現代日本語書き言葉均衡コーパスについて行った。
また、現代日本語書き言葉均衡コーパスの「問題」の類義語について、クラウドソーシングによる追加のアノテーションを行った。さらに、BERTを利用した語義曖昧性解消の分類器を作成することで、2020年度は6割台だった正解率が9割を超えることを確認した。
次に、「問題」及びその類義語を特徴語として、周辺文から特徴語が示す「問題内容」「問題内容」のアノテーションルールを作成し、人手のアノテーションに取り掛かった。
また、クロスリンガルな処理を行う事前実験として、事前学習モデルを利用したクロスリンガルな評判分析の実験を行った。こちらは2022年度6月に発表予定である。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

サバティカルから帰国後、不在時の埋め合わせの仕事があったことと、不在時に学生をとれなかったことから、時間的および人的リソースが思ったほど割けなかったため、研究が遅れていたが、2020年度には、新型コロナウイルスのためにオンライン授業の準備や入試の準備にかなり時間がとられた。2021年に職場を変ったこともあり、遅れは取り戻しつつあるが、まだ完全ではない状態である。
遅れについては、以下の経緯がある。まず、2019年に英語版の論文を参考にして、コーパスにアノテーションを行ったところ、作業者にかなりのずれがあったため、2019年9月に、英語版のアノテーションのルーブリックを入手し、その定義にさかのぼって日本語版をどうつけるかについて議論を行った。9月の後半には英語版の論文の責任著者であるSimone Teufel教授との議論を行って、英語版ではルールありきの分類となっていることが分かった。しかし、日本語は英語ほど明白なパターンがなかったため、コーパスアノテーションについて、英語版の邦訳では難しいことが分かった。そのため、2020年には、コーパスアノテーションのためのルール策定に一年を費やした。やっとルールを策定し、「問題」の分類の定義もできたため、機械学習によって、用例を拡充す
ることができることを確認し、人手およびクラウドソーシング、機械学習によってそのアノテーションを増やしている最中である。

Strategy for Future Research Activity

アノテーションが一段落した時点で、論文を執筆する。
また、研究計画書にはケンブリッジ大学との交流も目的としたので、コロナの感染状況によっては、研究者を招くなどの交流を行いたいと考えている。

  • Research Products

    (8 results)

All 2022 2021

All Journal Article (2 results) (of which Peer Reviewed: 2 results,  Open Access: 2 results) Presentation (6 results) (of which Int'l Joint Research: 2 results)

  • [Journal Article] Morphological Analyzer Using the Bi-LSTM Model Only for Japanese Hiragana Sentences2022

    • Author(s)
      Jun Izutsu, Kanako Komiya
    • Journal Title

      International Journal on Natural Language Computing

      Volume: 11 Pages: 29-45

    • DOI

      10.5121/ijnlc.2022.11103

    • Peer Reviewed / Open Access
  • [Journal Article] Extracting Speech Patterns of Japanese Fictional Characters Using Subword Units2022

    • Author(s)
      Mika Kishino, Kanako Komiya
    • Journal Title

      International Journal on Natural Language Computing

      Volume: 11 Pages: 1-14

    • DOI

      10.5121/ijnlc.2022.11101

    • Peer Reviewed / Open Access
  • [Presentation] Morphological Analysis of Japanese Hiragana Sentences Using the Bi-LSTM CRF Model2021

    • Author(s)
      Jun Izutsu, Kanako Komiya
    • Organizer
      10th International Conference on Natural Language Processing (NLP 2021)
    • Int'l Joint Research
  • [Presentation] Extraction of Linguistic Speech Patterns of Japanese Fictional Characters Using Subword Units2021

    • Author(s)
      Mika Kishino, Kanako Komiya
    • Organizer
      10th International Conference on Natural Language Processing (NLP 2021)
    • Int'l Joint Research
  • [Presentation] 現代文 BERT を利用した日本語歴史コーパスの語義曖昧性解消2021

    • Author(s)
      多喜 凪, 古宮嘉那子
    • Organizer
      言語処理学会第28回年次大会
  • [Presentation] BERTを用いた二つの辞書の対応付け2021

    • Author(s)
      河野稜斗, 平林照雄, 古宮嘉那子
    • Organizer
      言語処理学会第28回年次大会
  • [Presentation] 共学習によるレビュー文書からのネガティブな意見文の抽出2021

    • Author(s)
      三戸尚樹, 古宮嘉那子, 佐々木稔
    • Organizer
      言語処理学会第28回年次大会
  • [Presentation] レビューから抽出されたキーフレーズと感情スコアを用いた評判分析2021

    • Author(s)
      HUANG YIPU, 佐々木稔, 古宮嘉那子
    • Organizer
      言語処理学会第28回年次大会

URL: 

Published: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi