研究課題/領域番号 |
19K12241
|
研究機関 | 龍谷大学 |
研究代表者 |
馬 青 龍谷大学, 先端理工学部, 教授 (30358882)
|
研究分担者 |
南條 浩輝 京都大学, 学術情報メディアセンター, 准教授 (50388162)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | 非構造化文書 / 用語抽出 / 診療科推定 / 日本語学習支援 / 機械学習 / 深層学習 |
研究実績の概要 |
本年度では研究計画に沿って、引き続き本事業の中核をなす、自然言語処理による快適なWeb利活用基盤構築を目指す研究を、以下の各々のテーマで推進した。 (1)見出し語と説明文が明確に分かれていない、非構造化文書(説明テキスト)からの用語抽出研究では、深層学習の言語モデルBERTのQAタスク仕様で、説明テキストに対するWeb検索結果(文書)からの用語抽出手法を提案した。実験の結果、1位に用語を20~30%程度の精度で、10位以内に用語を40%程度の精度で取得することができた。また、用語候補のランキング方法についても検討を行い、多数決によるランキングが最も有効であることがわかった。類似度に基づく手法は多数決手法を補完できる可能性があることがわかった。 (2)症状に基づく受診すべき最適な診療科の機械学習による推定の研究では、症状文書のベクトル化に三種類の手法(BoW, SdA, BERT)を、分類器にSdA, SVMを適用し、様々な比較実験を行い、前者にBERT後者にSVMがもっとも有効であることがわかった。 (3)日本語学習支援の研究では、不完全な日本語文章にも対応できる形態素解析を要求しない深層学習CLCNNの三種類の言語処理タスク(小説の著者推定など)における性能調査を行った。実験の結果、異なるタスク間の転移学習の有効性を確認した。また、三種類の言語処理タスクのうちの1つである日本語学習者が書いた文章か添削された文章かの判別タスクにおいては約70%の正解率が得られた。 (4)前年度に提案した、大規模なテキストデータから有用な情報を抽出し、それを整理する表やそれらの概念ネットワークを生成する手法を改善した。新聞やWikipediaなど5種類のデータを対象とした評価実験を行い、手法が改善できたことを確認した。 上記研究成果は査読付き学術雑誌論文1編と査読なし論文4編として発表した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究室の複数メンバーにより、研究計画に沿った研究を円滑に実施することができ、研究をおおむね順調に進展させることができた。研究成果も得られ、積極的に外部発表を行った。 一方、課題の目標設定が高すぎたところも見られ、その目標を達成するためのサブゴールを複数設け、それに向けて研究を推進している。
|
今後の研究の推進方策 |
研究計画に沿って研究を円滑に実施しており、所期の知見や研究成果も得られたので、今後も研究計画にそって、課題目標が達成できるよう研究をより一層強力に進めて行く予定である。 また、研究環境・研究ツールに関する最新動向や関連研究分野の最新成果を常にサーベイし、そこから得た知見で研究環境・研究手法をタイムリーにアップデートして行く予定である。
|
次年度使用額が生じた理由 |
新型コロナウイルス禍の影響で学会開催がオンライン化になり、当初予定していた旅費関係の費用が不要となった。その一部を研究推進に必要な計算機やテキストコーパスの前倒し購入に充てた。以上の理由で次年度の使用額が生じた。 次年度以降は、研究の進展に伴う計算環境の増強、大規模実験の補助やユーザデータの収集にかかる人件費・謝金、オンライン学会への参加費用や論文投稿費用などに、研究費を有効活用していく予定である。
|