2022 Fiscal Year Research-status Report
数値および専門性と話題性に着目したSNSからの科学的知識抽出に関する研究
Project/Area Number |
21K12141
|
Research Institution | The University of Tokushima |
Principal Investigator |
吉田 稔 徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (40361688)
|
Co-Investigator(Kenkyū-buntansha) |
北 研二 徳島大学, 大学院社会産業理工学研究部(理工学域), 教授 (10243734) [Withdrawn]
松本 和幸 徳島大学, 大学院社会産業理工学研究部(理工学域), 准教授 (90509754)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 数値情報解析 / SNS分析 |
Outline of Annual Research Achievements |
数値の取り扱いの研究に関しては、テキスト中の数値を、有効数字に応じて抽象化する手法について研究を行った。抽象化したテキストを単語分散表現の獲得に用いたところ、同義語抽出の精度を向上させることを確認した。また、BERTを用いて、テキスト中の数値表現を分類する研究も行った。文書構造を利用した数値の表現抽出に関しては、データの準備を進めた。 数値的・科学的記述が頻出するテキストとして、医療や健康に関する話題のテキストの分析も、引き続き行った。闘病に関するブログにおいて出現する数値や感情表現の抽出、および、それらの関連の分析を行った。 数値表現獲得のために用いる、Transformerモデルの理論的分析も行った。学習済みBERTモデルを分析することにより、特に、VALUE行列と呼ばれるパラメータ群が、単語の共起度合いを反映していることを発見した。これにより、Transformerによる単語の意味獲得の精度をより改善できることが期待できる。 発信者の専門性とテキストの関連分析では、SNSのプロフィールテキストを用いた手法の研究を行った。スポーツの世界大会を対象に、当該スポーツを普段から観戦しているユーザーと、そうでないユーザーの単語使用傾向を比較し、両者の間に大きな違いがあることを確認した。 テキスト中の感情分析に関しては、顔文字の画像分析を用いた感情分析手法や、感情分析を用いた物語要約と対話破綻検出に関する研究を進めた。また、性格による感情変化に関する研究も行った。また、画像とテキストの関連分析に関しては、画像特徴量を用いたSNSテキストの評価予測について、引き続き研究を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
数値とテキストの関連分析、ユーザーの専門性によるテキストの傾向分析に関しては、順調に研究が進んでいるほか、基盤となる深層学習モデルに関する理論的分析も行っており、より高精度な数値表現抽出への準備が進んでいると考える。画像とテキストの関連に関しても、引き続き研究を進めている。 最終年度においては、これらの基礎技術を引き続き改善するほか、これらの技術を統合することを目指していく。
|
Strategy for Future Research Activity |
数値とテキストの関連分析と、ユーザーの専門性を用いたテキストの分析、画像とテキストの関連分析については、引き続き研究を進めていく。これに加え、最終年度では、特に、文書構造を利用した数値の意味表現獲得と、論文への評判分析について研究を進めていく。また、これまで開発した基礎技術の統合に関して研究を進めていく。
|
Causes of Carryover |
前年度に引き続き、感染拡大防止のための渡航制限が続き、海外学会への参加をオンライン参加としたため、海外出張の費用が不要となった。現在は、国内の学会も含め、多くの学会で対面参加が復活しつつあるため、会議参加のための出張費用として使用する予定である。
|
Research Products
(18 results)