2021 Fiscal Year Research-status Report

自然言語処理技術を用いた快適なWeb利活用支援に関する研究

Research Project

Project/Area Number	19K12241
Research Institution	Ryukoku University
Principal Investigator	馬青龍谷大学, 先端理工学部, 教授 (30358882)
Co-Investigator(Kenkyū-buntansha)	南條浩輝京都大学, 学術情報メディアセンター, 准教授 (50388162)
Project Period (FY)	2019-04-01 – 2023-03-31
Keywords	非構造化文書 / 用語抽出 / 診療科推定 / 日本語学習支援 / 機械学習 / 深層学習
Outline of Annual Research Achievements	本年度では研究計画に沿って、引き続き本事業の中核をなす、自然言語処理による快適なWeb利活用基盤構築を目指す研究を、以下の各々のテーマで推進した。 (1)見出し語と説明文が明確に分かれていない、非構造化文書(説明テキスト)からの用語抽出研究では、深層学習の言語モデルBERTのQAタスク仕様で、説明テキストに対するWeb検索結果（文書）からの用語抽出手法を提案した。実験の結果、1位に用語を20～30%程度の精度で、10位以内に用語を40%程度の精度で取得することができた。また、用語候補のランキング方法についても検討を行い、多数決によるランキングが最も有効であることがわかった。類似度に基づく手法は多数決手法を補完できる可能性があることがわかった。 (2)症状に基づく受診すべき最適な診療科の機械学習による推定の研究では、症状文書のベクトル化に三種類の手法（BoW, SdA, BERT）を、分類器にSdA, SVMを適用し、様々な比較実験を行い、前者にBERT後者にSVMがもっとも有効であることがわかった。 (3)日本語学習支援の研究では、不完全な日本語文章にも対応できる形態素解析を要求しない深層学習CLCNNの三種類の言語処理タスク（小説の著者推定など）における性能調査を行った。実験の結果、異なるタスク間の転移学習の有効性を確認した。また、三種類の言語処理タスクのうちの1つである日本語学習者が書いた文章か添削された文章かの判別タスクにおいては約70%の正解率が得られた。 (4)前年度に提案した、大規模なテキストデータから有用な情報を抽出し、それを整理する表やそれらの概念ネットワークを生成する手法を改善した。新聞やWikipediaなど5種類のデータを対象とした評価実験を行い、手法が改善できたことを確認した。上記研究成果は査読付き学術雑誌論文１編と査読なし論文4編として発表した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 研究室の複数メンバーにより、研究計画に沿った研究を円滑に実施することができ、研究をおおむね順調に進展させることができた。研究成果も得られ、積極的に外部発表を行った。一方、課題の目標設定が高すぎたところも見られ、その目標を達成するためのサブゴールを複数設け、それに向けて研究を推進している。
Strategy for Future Research Activity	研究計画に沿って研究を円滑に実施しており、所期の知見や研究成果も得られたので、今後も研究計画にそって、課題目標が達成できるよう研究をより一層強力に進めて行く予定である。また、研究環境・研究ツールに関する最新動向や関連研究分野の最新成果を常にサーベイし、そこから得た知見で研究環境・研究手法をタイムリーにアップデートして行く予定である。
Causes of Carryover	新型コロナウイルス禍の影響で学会開催がオンライン化になり、当初予定していた旅費関係の費用が不要となった。その一部を研究推進に必要な計算機やテキストコーパスの前倒し購入に充てた。以上の理由で次年度の使用額が生じた。次年度以降は、研究の進展に伴う計算環境の増強、大規模実験の補助やユーザデータの収集にかかる人件費・謝金、オンライン学会への参加費用や論文投稿費用などに、研究費を有効活用していく予定である。

Research Products
(5 results)

All 2022 2021

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results) Presentation (4 results)

[Journal Article] Improved Method for Organizing Information Contained in Multiple Documents into a Table2021
- Author(s)
  Murata Masaki, Okazaki Kensuke, Ma Qing
- Journal Title
  
  Journal of Natural Language Processing
  
  Volume: 28 Pages: 802～823
- DOI
  10.5715/jnlp.28.802
- Peer Reviewed / Open Access
[Presentation] 機械学習と統計的検定を利用した知見獲得とその評価2022
- Author(s)
  董卜睿，村田真樹，馬青
- Organizer
  言語処理学会第28回年次大会発表論文集 (2022年3月) pp. 903-908
[Presentation] Web 文書からの用語検索における用語候補のランキングの検討2022
- Author(s)
  池内省吾，南條浩輝，馬青
- Organizer
  言語処理学会第28回年次大会発表論文集 (2022年3月) pp. 1284-1288
[Presentation] 賛成を得やすい文章の機械学習を利用した収集と分析2022
- Author(s)
  三木謙志，村田真樹，馬青
- Organizer
  言語処理学会第28回年次大会発表論文集 (2022年3月) pp. 1541-1545
[Presentation] BERTを用いたWeb文書からの用語検索2021
- Author(s)
  池内省吾，南條浩輝，馬青
- Organizer
  IPSJ研究報告自然言語処理（NL） pp. 1-6

2021 Fiscal Year Research-status Report

自然言語処理技術を用いた快適なWeb利活用支援に関する研究

Principal Investigator

馬 青 龍谷大学, 先端理工学部, 教授 (30358882)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Improved Method for Organizing Information Contained in Multiple Documents into a Table2021

Author(s)

Journal Title

DOI

[Presentation] 機械学習と統計的検定を利用した知見獲得とその評価2022

Author(s)

Organizer

[Presentation] Web 文書からの用語検索における用語候補のランキングの検討2022

Author(s)

Organizer

[Presentation] 賛成を得やすい文章の機械学習を利用した収集と分析2022

Author(s)

Organizer

[Presentation] BERTを用いたWeb文書からの用語検索2021

Author(s)

Organizer

馬青龍谷大学, 先端理工学部, 教授 (30358882)