• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2019 年度 実施状況報告書

複数タグセットのタグがついたコーパスによる語義曖昧性解消の転移学習

研究課題

研究課題/領域番号 18K11421
研究機関茨城大学

研究代表者

古宮 嘉那子  茨城大学, 理工学研究科(工学野), 講師 (10592339)

研究期間 (年度) 2018-04-01 – 2021-03-31
キーワードバイリンガル分散表現 / コーパス / 語義曖昧性解消 / 単語 / 単語区切り / 分散表現
研究実績の概要

一年目に行った二つの実験について、追加実験を行い、論文を執筆した。
ひとつめは、分類語彙表の分類番号(意味を表すクラスの番号)と岩波国語辞典の語義の対応をとる研究である。これは分類語彙表の分類番号と岩波国語辞典の語義の両方が付与された、現代日本語書き言葉コーパスを用いて実験を行っている。Bilingual word embeddingsを利用して、ふたつの辞書における意味の対応をとる方法であったが、最頻出の語義をとる手法に比べて,正解率を上回ることができなかった。これに対して、Bilingual word embeddingsの新しい手法を試してみたが、やはり最頻出の語義を出力する方が良いという結果になった。ただし、この試み自体は新しいので、タスクとしての提案を国際会議に投稿したところ、採択された。今年度発表予定である。
ふたつめは、Fine-tuningを使った分散表現の改良の実験である。これについては追加実験を行い、国内学会で発表を行った。現在、国際学会での発表を目指している。
また、複数のコーパスを利用する際に、単語の区切り方が違うという問題があり、今後本研究と大きく関わってくることが予測されたため、単語の区切り方が違うときに、別々に作った分散表現をマッピングする問題についての研究を行った。ひとつは、Bilingual word embeddingsを利用した手法であり。もうひとつは、マルチタスク学習を用いた手法である。これらをはじめとして、上記のテーマと合計して、関連論文をジャーナルに1本、国際会議に1本、国内の研究会に6本発表した。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

サバティカルから帰国後、不在時の埋め合わせの仕事があったのと、不在時に学生をとれなかったことから、時間的および人的リソースが思ったほど割けなかったため、特に論文執筆に関して、やや遅れている。
また、コーパスの種類によっては、単語区切りが異なるという問題があり、語義曖昧性解消ではなく、単語区切りの問題に力を入れた研究となったので、少々当初の目的そのものの前段階の研究が増えてきた。しかし、単語区切りの問題は、語義曖昧性解消だけではなく、広範な研究にかかわるので、こちらから実験を行う予定である。
二年目の研究を受けて、主に単語区切りの問題に関して、日本語の研究会に出せるような成果はまた上がってきた。例えば、Bilingual Word Embeddingsによる短単位と長単位のアラインメントの研究や、マルチタスク学習を利用した短単位の分散表現から長単位の分散表現の合成の研究、単語区切りの違いによるQAサイトの質問回答ペアの分類の研究、 All-words WSDとfine-tuningを利用した分類語彙表の語義の分散表現の構築の研究などである。これらについて、研究によっては追加実験を行い、結果をきれいにまとめて国際学会の論文やジャーナル論文にしていく予定である。

今後の研究の推進方策

マルチタスク学習を用いて、語義曖昧性解消の転移学習を行う予定である。二年目は国立国語研究所の日本語書き言葉均衡コーパスの、短単位の語義と長単位の語義についてその調査実験を行った。しかし、まだマルチタスク学習の実装には至っていなかったので、その実装から行う予定である。調査実験では、ひとつのコーパスの語義(短単位の語義)がもうひとつのコーパスの語義(長単位の語義)の語義曖昧性解消に対して役に立つという結果が得られている。ただし、片方のコーパス(長単位の語義)の量がとても少ないため、マルチタスク学習を用いた手法で精度を上げるためには工夫が必要であると考えている。
また、二年目は、複数のコーパスの転移学習を行うとき、コーパスごとに単語区切りが異なっていると、転移学習の大きな障害となっていることから、単語区切りの問題を解決する研究をいくつか行ってきた。こちらについても二年目の成果をまとめるだけでなく、さらなる実験を行っていく予定である。特に、二年目は日本語書き言葉均衡コーパスの、短単位と長単位を例に研究を行ってきたが、IPA辞書や、ほかの切り方についても考慮する予定である。特に、二年目は、人手で付与した係り受けの情報を利用して実験を行ってきたため、得られるデータに限りがあった。既存のツールを使って自動的に得られる情報から、問題を解決できるようにして、用例を増やして実験を行っていきたいと考えている。

次年度使用額が生じた理由

研究成果を国際会議で発表予定であったが、発表が今年度になってしまったため。今年度に発表する際に使用する予定である。

  • 研究成果

    (9件)

すべて 2020 2019

すべて 雑誌論文 (1件) 学会発表 (7件) (うち国際学会 1件) 図書 (1件)

  • [雑誌論文] Unsupervised All-words WSD Using Synonyms and Embeddings2019

    • 著者名/発表者名
      Suzuki Rui、Komiya Kanako、Asahara Masayuki、Sasaki Minoru、Shinnou Hiroyuki
    • 雑誌名

      Journal of Natural Language Processing

      巻: 26 ページ: 361~379

    • DOI

      https://doi.org/10.5715/jnlp.26.361

  • [学会発表] MeCab による平仮名のみの形態素解析2020

    • 著者名/発表者名
      井筒順, 明石陸, 加藤涼, 岸野望叶, 小林汰一郎, 金野佑太, 古宮嘉那子
    • 学会等名
      言語処理学会第26回年次大会
  • [学会発表] マルチタスク学習を利用した短単位の分散表現から長単位の分散表現の合成2020

    • 著者名/発表者名
      河野慎司, 古宮嘉那子
    • 学会等名
      言語処理学会第26回年次大会
  • [学会発表] 通時的な領域適応を行った単語分散表現を利用した古文から現代文へのニューラル機械翻訳2020

    • 著者名/発表者名
      高久雅史, 平澤寅庄, 小町守 , 古宮嘉那子
    • 学会等名
      言語処理学会第26回年次大会
  • [学会発表] Bilingual Word Embeddingsによる短単位と長単位のアラインメント2020

    • 著者名/発表者名
      平林照雄, 古宮嘉那子, 新納浩幸
    • 学会等名
      語処理学会第26回年次大会
  • [学会発表] Composing Word Vectors for Japanese Compound Words Using Dependency Relations2019

    • 著者名/発表者名
      Kanako Komiya, Takumi Seitou, Minoru Sasaki, Hiroyuki Shinnou
    • 学会等名
      CICLING 2019
    • 国際学会
  • [学会発表] All-words WSDとfine-tuningを利用した分類語彙表の語義の分散表現の構築2019

    • 著者名/発表者名
      柳沼 大輝, 古宮 嘉那子, 新納 浩幸
    • 学会等名
      言語資源活用ワークショップ 2019
  • [学会発表] 単語区切りの違いによるQAサイトの質問回答ペアの分類2019

    • 著者名/発表者名
      佐々木稔, 古宮嘉那子
    • 学会等名
      IDRユーザフォーラム 2019
  • [図書] 機械学習教本2019

    • 著者名/発表者名
      柴原 一友、築地 毅、古宮 嘉那子、宮武孝尚、小谷 善行
    • 総ページ数
      240
    • 出版者
      森北出版
    • ISBN
      978-4-627-85451-2

URL: 

公開日: 2021-01-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi