数値および専門性と話題性に着目したSNSからの科学的知識抽出に関する研究
Project/Area Number |
21K12141
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 62020:Web informatics and service informatics-related
|
Research Institution | The University of Tokushima |
Principal Investigator |
吉田 稔 徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (40361688)
|
Co-Investigator(Kenkyū-buntansha) |
北 研二 徳島大学, 大学院社会産業理工学研究部(理工学域), 教授 (10243734)
松本 和幸 徳島大学, 大学院社会産業理工学研究部(理工学域), 准教授 (90509754)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥3,640,000 (Direct Cost: ¥2,800,000、Indirect Cost: ¥840,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2022: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Fiscal Year 2021: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
|
Keywords | 数値情報解析 / SNS分析 / 画像とテキストの関連分析 / テキスト中の数値解析 / 用語抽出 |
Outline of Research at the Start |
本研究提案は、SNS上における、専門的な話題に関する人々の発言を対象に、特に数値および専門用語に着目し、その重要度や用語・数値間の関係を抽出するための手法を研究・開発するものである。人々が関心を持っている専門用語や数値(トレンド)を発見するとともに、(1)発言者の専門性を考慮する、(2)発言において参照されている論文等のエビデンスがあれば、それを分析する、等の手法を通じ、それら専門用語・数値間の関係や、各用語の重要性、専門知識の中における位置づけ(文脈)を反映した単語表現(単語の意味のベクトル表現)を学習し、用途に応じて適切な用語・数値を提示することを目的とする。
|
Outline of Annual Research Achievements |
数値の取り扱いの研究に関しては、テキスト中の数値を、有効数字に応じて抽象化する手法について研究を行った。抽象化したテキストを単語分散表現の獲得に用いたところ、同義語抽出の精度を向上させることを確認した。また、BERTを用いて、テキスト中の数値表現を分類する研究も行った。文書構造を利用した数値の表現抽出に関しては、データの準備を進めた。 数値的・科学的記述が頻出するテキストとして、医療や健康に関する話題のテキストの分析も、引き続き行った。闘病に関するブログにおいて出現する数値や感情表現の抽出、および、それらの関連の分析を行った。 数値表現獲得のために用いる、Transformerモデルの理論的分析も行った。学習済みBERTモデルを分析することにより、特に、VALUE行列と呼ばれるパラメータ群が、単語の共起度合いを反映していることを発見した。これにより、Transformerによる単語の意味獲得の精度をより改善できることが期待できる。 発信者の専門性とテキストの関連分析では、SNSのプロフィールテキストを用いた手法の研究を行った。スポーツの世界大会を対象に、当該スポーツを普段から観戦しているユーザーと、そうでないユーザーの単語使用傾向を比較し、両者の間に大きな違いがあることを確認した。 テキスト中の感情分析に関しては、顔文字の画像分析を用いた感情分析手法や、感情分析を用いた物語要約と対話破綻検出に関する研究を進めた。また、性格による感情変化に関する研究も行った。また、画像とテキストの関連分析に関しては、画像特徴量を用いたSNSテキストの評価予測について、引き続き研究を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
数値とテキストの関連分析、ユーザーの専門性によるテキストの傾向分析に関しては、順調に研究が進んでいるほか、基盤となる深層学習モデルに関する理論的分析も行っており、より高精度な数値表現抽出への準備が進んでいると考える。画像とテキストの関連に関しても、引き続き研究を進めている。 最終年度においては、これらの基礎技術を引き続き改善するほか、これらの技術を統合することを目指していく。
|
Strategy for Future Research Activity |
数値とテキストの関連分析と、ユーザーの専門性を用いたテキストの分析、画像とテキストの関連分析については、引き続き研究を進めていく。これに加え、最終年度では、特に、文書構造を利用した数値の意味表現獲得と、論文への評判分析について研究を進めていく。また、これまで開発した基礎技術の統合に関して研究を進めていく。
|
Report
(2 results)
Research Products
(35 results)
-
-
-
-
-
-
-
-
-
-
-
-
-
[Presentation] A System to Correct Toxic Expression with BERT2022
Author(s)
Motonobu Yoshida, Kazuyuki Matsumoto, Minoru Yoshida and Kenji Kita
Organizer
Proceedings of the 14th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management - KEOD(Web会議)
Related Report
Int'l Joint Research
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-