• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Research-status Report

複数タグセットのタグがついたコーパスによる語義曖昧性解消の転移学習

Research Project

Project/Area Number 18K11421
Research InstitutionIbaraki University

Principal Investigator

古宮 嘉那子  茨城大学, 理工学研究科(工学野), 講師 (10592339)

Project Period (FY) 2018-04-01 – 2021-03-31
Keywordsバイリンガル分散表現 / コーパス / 語義曖昧性解消 / 単語 / 単語区切り / 分散表現
Outline of Annual Research Achievements

一年目に行った二つの実験について、追加実験を行い、論文を執筆した。
ひとつめは、分類語彙表の分類番号(意味を表すクラスの番号)と岩波国語辞典の語義の対応をとる研究である。これは分類語彙表の分類番号と岩波国語辞典の語義の両方が付与された、現代日本語書き言葉コーパスを用いて実験を行っている。Bilingual word embeddingsを利用して、ふたつの辞書における意味の対応をとる方法であったが、最頻出の語義をとる手法に比べて,正解率を上回ることができなかった。これに対して、Bilingual word embeddingsの新しい手法を試してみたが、やはり最頻出の語義を出力する方が良いという結果になった。ただし、この試み自体は新しいので、タスクとしての提案を国際会議に投稿したところ、採択された。今年度発表予定である。
ふたつめは、Fine-tuningを使った分散表現の改良の実験である。これについては追加実験を行い、国内学会で発表を行った。現在、国際学会での発表を目指している。
また、複数のコーパスを利用する際に、単語の区切り方が違うという問題があり、今後本研究と大きく関わってくることが予測されたため、単語の区切り方が違うときに、別々に作った分散表現をマッピングする問題についての研究を行った。ひとつは、Bilingual word embeddingsを利用した手法であり。もうひとつは、マルチタスク学習を用いた手法である。これらをはじめとして、上記のテーマと合計して、関連論文をジャーナルに1本、国際会議に1本、国内の研究会に6本発表した。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

サバティカルから帰国後、不在時の埋め合わせの仕事があったのと、不在時に学生をとれなかったことから、時間的および人的リソースが思ったほど割けなかったため、特に論文執筆に関して、やや遅れている。
また、コーパスの種類によっては、単語区切りが異なるという問題があり、語義曖昧性解消ではなく、単語区切りの問題に力を入れた研究となったので、少々当初の目的そのものの前段階の研究が増えてきた。しかし、単語区切りの問題は、語義曖昧性解消だけではなく、広範な研究にかかわるので、こちらから実験を行う予定である。
二年目の研究を受けて、主に単語区切りの問題に関して、日本語の研究会に出せるような成果はまた上がってきた。例えば、Bilingual Word Embeddingsによる短単位と長単位のアラインメントの研究や、マルチタスク学習を利用した短単位の分散表現から長単位の分散表現の合成の研究、単語区切りの違いによるQAサイトの質問回答ペアの分類の研究、 All-words WSDとfine-tuningを利用した分類語彙表の語義の分散表現の構築の研究などである。これらについて、研究によっては追加実験を行い、結果をきれいにまとめて国際学会の論文やジャーナル論文にしていく予定である。

Strategy for Future Research Activity

マルチタスク学習を用いて、語義曖昧性解消の転移学習を行う予定である。二年目は国立国語研究所の日本語書き言葉均衡コーパスの、短単位の語義と長単位の語義についてその調査実験を行った。しかし、まだマルチタスク学習の実装には至っていなかったので、その実装から行う予定である。調査実験では、ひとつのコーパスの語義(短単位の語義)がもうひとつのコーパスの語義(長単位の語義)の語義曖昧性解消に対して役に立つという結果が得られている。ただし、片方のコーパス(長単位の語義)の量がとても少ないため、マルチタスク学習を用いた手法で精度を上げるためには工夫が必要であると考えている。
また、二年目は、複数のコーパスの転移学習を行うとき、コーパスごとに単語区切りが異なっていると、転移学習の大きな障害となっていることから、単語区切りの問題を解決する研究をいくつか行ってきた。こちらについても二年目の成果をまとめるだけでなく、さらなる実験を行っていく予定である。特に、二年目は日本語書き言葉均衡コーパスの、短単位と長単位を例に研究を行ってきたが、IPA辞書や、ほかの切り方についても考慮する予定である。特に、二年目は、人手で付与した係り受けの情報を利用して実験を行ってきたため、得られるデータに限りがあった。既存のツールを使って自動的に得られる情報から、問題を解決できるようにして、用例を増やして実験を行っていきたいと考えている。

Causes of Carryover

研究成果を国際会議で発表予定であったが、発表が今年度になってしまったため。今年度に発表する際に使用する予定である。

  • Research Products

    (9 results)

All 2020 2019

All Journal Article (1 results) Presentation (7 results) (of which Int'l Joint Research: 1 results) Book (1 results)

  • [Journal Article] Unsupervised All-words WSD Using Synonyms and Embeddings2019

    • Author(s)
      Suzuki Rui、Komiya Kanako、Asahara Masayuki、Sasaki Minoru、Shinnou Hiroyuki
    • Journal Title

      Journal of Natural Language Processing

      Volume: 26 Pages: 361~379

    • DOI

      https://doi.org/10.5715/jnlp.26.361

  • [Presentation] MeCab による平仮名のみの形態素解析2020

    • Author(s)
      井筒順, 明石陸, 加藤涼, 岸野望叶, 小林汰一郎, 金野佑太, 古宮嘉那子
    • Organizer
      言語処理学会第26回年次大会
  • [Presentation] マルチタスク学習を利用した短単位の分散表現から長単位の分散表現の合成2020

    • Author(s)
      河野慎司, 古宮嘉那子
    • Organizer
      言語処理学会第26回年次大会
  • [Presentation] 通時的な領域適応を行った単語分散表現を利用した古文から現代文へのニューラル機械翻訳2020

    • Author(s)
      高久雅史, 平澤寅庄, 小町守 , 古宮嘉那子
    • Organizer
      言語処理学会第26回年次大会
  • [Presentation] Bilingual Word Embeddingsによる短単位と長単位のアラインメント2020

    • Author(s)
      平林照雄, 古宮嘉那子, 新納浩幸
    • Organizer
      語処理学会第26回年次大会
  • [Presentation] Composing Word Vectors for Japanese Compound Words Using Dependency Relations2019

    • Author(s)
      Kanako Komiya, Takumi Seitou, Minoru Sasaki, Hiroyuki Shinnou
    • Organizer
      CICLING 2019
    • Int'l Joint Research
  • [Presentation] All-words WSDとfine-tuningを利用した分類語彙表の語義の分散表現の構築2019

    • Author(s)
      柳沼 大輝, 古宮 嘉那子, 新納 浩幸
    • Organizer
      言語資源活用ワークショップ 2019
  • [Presentation] 単語区切りの違いによるQAサイトの質問回答ペアの分類2019

    • Author(s)
      佐々木稔, 古宮嘉那子
    • Organizer
      IDRユーザフォーラム 2019
  • [Book] 機械学習教本2019

    • Author(s)
      柴原 一友、築地 毅、古宮 嘉那子、宮武孝尚、小谷 善行
    • Total Pages
      240
    • Publisher
      森北出版
    • ISBN
      978-4-627-85451-2

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi