• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2021 年度 実施状況報告書

語義曖昧性解消技術と領域適応手法を利用した情報抽出手法の研究開発

研究課題

研究課題/領域番号 17KK0002
研究機関東京農工大学

研究代表者

古宮 嘉那子  東京農工大学, 工学(系)研究科(研究院), 准教授 (10592339)

研究期間 (年度) 2018 – 2022
キーワードコーパス / 語義曖昧性解消 / 問題抽出 / コーパス作成 / アノテーション / BERT
研究実績の概要

『日本語の論文コーパスにおける「問題」の語義アノテーション』を拡張し、「問題」およびその類義語の意味がproblematicなのかtaskなのかについて、2020年度に策定したアノテーションルールに従って、複数の学生により人手による追加のアノテーションを現代日本語書き言葉均衡コーパスについて行った。
また、現代日本語書き言葉均衡コーパスの「問題」の類義語について、クラウドソーシングによる追加のアノテーションを行った。さらに、BERTを利用した語義曖昧性解消の分類器を作成することで、2020年度は6割台だった正解率が9割を超えることを確認した。
次に、「問題」及びその類義語を特徴語として、周辺文から特徴語が示す「問題内容」「問題内容」のアノテーションルールを作成し、人手のアノテーションに取り掛かった。
また、クロスリンガルな処理を行う事前実験として、事前学習モデルを利用したクロスリンガルな評判分析の実験を行った。こちらは2022年度6月に発表予定である。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

サバティカルから帰国後、不在時の埋め合わせの仕事があったことと、不在時に学生をとれなかったことから、時間的および人的リソースが思ったほど割けなかったため、研究が遅れていたが、2020年度には、新型コロナウイルスのためにオンライン授業の準備や入試の準備にかなり時間がとられた。2021年に職場を変ったこともあり、遅れは取り戻しつつあるが、まだ完全ではない状態である。
遅れについては、以下の経緯がある。まず、2019年に英語版の論文を参考にして、コーパスにアノテーションを行ったところ、作業者にかなりのずれがあったため、2019年9月に、英語版のアノテーションのルーブリックを入手し、その定義にさかのぼって日本語版をどうつけるかについて議論を行った。9月の後半には英語版の論文の責任著者であるSimone Teufel教授との議論を行って、英語版ではルールありきの分類となっていることが分かった。しかし、日本語は英語ほど明白なパターンがなかったため、コーパスアノテーションについて、英語版の邦訳では難しいことが分かった。そのため、2020年には、コーパスアノテーションのためのルール策定に一年を費やした。やっとルールを策定し、「問題」の分類の定義もできたため、機械学習によって、用例を拡充す
ることができることを確認し、人手およびクラウドソーシング、機械学習によってそのアノテーションを増やしている最中である。

今後の研究の推進方策

アノテーションが一段落した時点で、論文を執筆する。
また、研究計画書にはケンブリッジ大学との交流も目的としたので、コロナの感染状況によっては、研究者を招くなどの交流を行いたいと考えている。

  • 研究成果

    (8件)

すべて 2022 2021

すべて 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 2件) 学会発表 (6件) (うち国際学会 2件)

  • [雑誌論文] Morphological Analyzer Using the Bi-LSTM Model Only for Japanese Hiragana Sentences2022

    • 著者名/発表者名
      Jun Izutsu, Kanako Komiya
    • 雑誌名

      International Journal on Natural Language Computing

      巻: 11 ページ: 29-45

    • DOI

      10.5121/ijnlc.2022.11103

    • 査読あり / オープンアクセス
  • [雑誌論文] Extracting Speech Patterns of Japanese Fictional Characters Using Subword Units2022

    • 著者名/発表者名
      Mika Kishino, Kanako Komiya
    • 雑誌名

      International Journal on Natural Language Computing

      巻: 11 ページ: 1-14

    • DOI

      10.5121/ijnlc.2022.11101

    • 査読あり / オープンアクセス
  • [学会発表] Morphological Analysis of Japanese Hiragana Sentences Using the Bi-LSTM CRF Model2021

    • 著者名/発表者名
      Jun Izutsu, Kanako Komiya
    • 学会等名
      10th International Conference on Natural Language Processing (NLP 2021)
    • 国際学会
  • [学会発表] Extraction of Linguistic Speech Patterns of Japanese Fictional Characters Using Subword Units2021

    • 著者名/発表者名
      Mika Kishino, Kanako Komiya
    • 学会等名
      10th International Conference on Natural Language Processing (NLP 2021)
    • 国際学会
  • [学会発表] 現代文 BERT を利用した日本語歴史コーパスの語義曖昧性解消2021

    • 著者名/発表者名
      多喜 凪, 古宮嘉那子
    • 学会等名
      言語処理学会第28回年次大会
  • [学会発表] BERTを用いた二つの辞書の対応付け2021

    • 著者名/発表者名
      河野稜斗, 平林照雄, 古宮嘉那子
    • 学会等名
      言語処理学会第28回年次大会
  • [学会発表] 共学習によるレビュー文書からのネガティブな意見文の抽出2021

    • 著者名/発表者名
      三戸尚樹, 古宮嘉那子, 佐々木稔
    • 学会等名
      言語処理学会第28回年次大会
  • [学会発表] レビューから抽出されたキーフレーズと感情スコアを用いた評判分析2021

    • 著者名/発表者名
      HUANG YIPU, 佐々木稔, 古宮嘉那子
    • 学会等名
      言語処理学会第28回年次大会

URL: 

公開日: 2022-12-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi