• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2020 年度 実施状況報告書

語義曖昧性解消技術と領域適応手法を利用した情報抽出手法の研究開発

研究課題

研究課題/領域番号 17KK0002
研究機関茨城大学

研究代表者

古宮 嘉那子  茨城大学, 理工学研究科(工学野), 講師 (10592339)

研究期間 (年度) 2018 – 2021
キーワードコーパス / 語義曖昧性解消 / 問題抽出 / コーパス作成 / アノテーション
研究実績の概要

論文から「問題」を抽出するにあたりproblematicな問題だけを抽出する必要があるため、論文中の「問題」の意味がproblematicなのか、それともtaskなどの意味を持ち、そうではないのかの分類を行う必要があることが去年の試行錯誤で分かった。 そのため、その語義を判定するコーパスをまずアノテーションすることとした。アノテーションルールを制定し、複数の学生にアノテーションを行ってもらい、その一致を見つつ議論を行ってアノテーションルールを策定しなおす作業を繰り返して、現在のルールを作成した。これにより、『言語処理学会論文誌LaTeXコーパス』に含まれる「問題」という語について、239件を人手でアノテーションした。
また、現代日本語書き言葉均衡コーパスに対して、これら239件を訓練事例として新たに「問題」の語義曖昧性解消を行い、これらの意味が「problematic」と「task」を高性能に分けていることを確認した。
一方で、日英のコーパスを用いて転移学習を行うための関連研究として、Bilingual Word Embeddingsを用いた辞書の対応の研究、異なった単語区切りの語から長い単語の分散表現を作成する研究、Fine-tuningの研究、また、形態素解析の研究と、単語区切りに関する研究、論文のタイトルを要旨から生成する研究などを行った。
結果として、国際会議を4本、国内の研究会で7本発表した。

現在までの達成度 (区分)
現在までの達成度 (区分)

4: 遅れている

理由

サバティカルから帰国後、不在時の埋め合わせの仕事があったことと、不在時に学生をとれなかったことから、時間的および人的リソースが思ったほど割けなかったため、研究が遅れていたが、2020年度には、新型コロナウイルスのためにオンライン授業の準備や入試の準備にかなり時間がとられたため、遅れを取り戻すことができていない状態である。
2019年の遅れについては、以下の経緯がある。まず、2019年に英語版の論文を参考にして、コーパスにアノテーションを行ったところ、作業者にかなりのずれがあった。そのため、2019年9月に、英語版のアノテーションのルーブリックを入手し、その定義にさかのぼって日本語版をどうつけるかについて議論を行った。9月の後半には英語版の論文の責任著者であるSimone Teufel教授との議論を行って、英語版ではルールありきの分類となっていることが分かった。
しかし、日本語は英語ほど明白なパターンがなかったため、コーパスアノテーションについて、英語版の邦訳では難しいことが分かった。そのため、2020年にコーパスアノテーションのためのルール策定に一年を費やした。やっとルールを策定し、「問題」の分類の定義もできたため、機械学習によって、用例を拡充することができることを確認した。現在は他の手がかり語について拡張している状態である。

今後の研究の推進方策

「問題」を表す部分を抽出するためには、たとえば「不備」や「困難」などの単語も手がかり語とできるため、現在はそれらの語に関して、ルールやパターンがあるかどうかを見ている。「問題」と同様に、機械学習を使って自動的にこれらの語の意味を分類する予定である。その後、また、英語版は分類器を用いてtaskとproblemを分けているが、日本語ではproblemの表現パターンのバリエーションが多いことから、分類器による抽出ではなく、系列ラベリングを用いて抽出する可能性が高い。
2020年4月に、ケンブリッジ大学の共同研究者を日本に招いて議論する予定であったが、新型コロナウイルスの影響で延期となった。また、2020年度にケンブリッジ大学を訪問する予定もあったが、これに関しても延期となっている。海外出張が可能になり次第実現させる予定である。なお、現在はメールで連絡を取っている状態である。

  • 研究成果

    (11件)

すべて 2021 2020

すべて 学会発表 (11件) (うち国際学会 1件)

  • [学会発表] 品詞情報を利用した複合語の分散表現の合成2021

    • 著者名/発表者名
      河野 慎司, 古宮嘉那子
    • 学会等名
      音声言語および自然言語処理シンポジウム
  • [学会発表] Bi-LSTM CRF モデルを用いた平仮名文の形態素解析2021

    • 著者名/発表者名
      井筒順, 古宮嘉那子
    • 学会等名
      言語処理学会第27回年次大会
  • [学会発表] 日本語の論文コーパスにおける「問題」の語義アノテーション2021

    • 著者名/発表者名
      平林照雄, 河野慎司, 古宮嘉那子, 新納浩幸
    • 学会等名
      言語処理学会第27回年次大会
  • [学会発表] SentencePieceを用いたキャラクターの特徴語抽出2021

    • 著者名/発表者名
      岸野望叶, 古宮嘉那子
    • 学会等名
      言語処理学会第27回年次大会
  • [学会発表] 論文の要旨からのタイトル生成におけるキーワードと分野別fine-tuningの効果2021

    • 著者名/発表者名
      金野佑太, 古宮嘉那子
    • 学会等名
      言語処理学会第27回年次大会
  • [学会発表] SVMを用いたBCCWJにおける同形異音語の読み推定2021

    • 著者名/発表者名
      小林汰一郎, 古宮嘉那子
    • 学会等名
      言語処理学会第27回年次大会
  • [学会発表] Automatic Creation of Correspondence Table of Meaning Tags from Two Dictionaries in One Language Using Bilingual Word Embedding2020

    • 著者名/発表者名
      Teruo Hirabayashi, Kanako Komiya, Masayuki Asahara and Hiroyuki Shinnou
    • 学会等名
      13th BUCC Workshop at LREC 2020
    • 国際学会
  • [学会発表] Generation and Evaluation of Concept Embeddings Via Fine-Tuning Using Automatically Tagged Corpus2020

    • 著者名/発表者名
      Kanako Komiya, Daiki Yaginuma, Masayuki Asahara, Hiroyuki Shinnou
    • 学会等名
      PACLIC 2020
  • [学会発表] Hiroyuki Shinnou,Composing Word Vectors for Japanese Compound Words Using Bilingual Word Embeddings2020

    • 著者名/発表者名
      Teruo Hirabayashi, Kanako Komiya, Masayuki Asahara
    • 学会等名
      PACLIC 2020
  • [学会発表] Neural Machine Translation from Historical Japanese to Contemporary Japanese Using Diachronically Domain-Adapted Word Embeddings2020

    • 著者名/発表者名
      Masashi Takaku, Tosho Hirasawa, Mamoru Komachi, Kanako Komiya
    • 学会等名
      PACLIC 2020
  • [学会発表] 複数の事前学習済みモデルを用いたQAサイト質問回答ペアの分類2020

    • 著者名/発表者名
      佐々木稔, 古宮嘉那子
    • 学会等名
      IDRユーザフォーラム 2020

URL: 

公開日: 2021-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi