2021 Fiscal Year Research-status Report
数値および専門性と話題性に着目したSNSからの科学的知識抽出に関する研究
Project/Area Number |
21K12141
|
Research Institution | The University of Tokushima |
Principal Investigator |
吉田 稔 徳島大学, 大学院社会産業理工学研究部(理工学域), 講師 (40361688)
|
Co-Investigator(Kenkyū-buntansha) |
北 研二 徳島大学, 大学院社会産業理工学研究部(理工学域), 教授 (10243734)
松本 和幸 徳島大学, 大学院社会産業理工学研究部(理工学域), 准教授 (90509754)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 数値情報解析 / SNS分析 / 画像とテキストの関連分析 |
Outline of Annual Research Achievements |
本年度は、主に、数値の取り扱いに関する研究を進めた。特に、数値的知識を単語分散表現に埋め込むための手法として、数値分布をNMFにより分解して、少ない次元のベクトルに変換する手法を開発し、その単語類似度計算への応用を試みた。同様に、単語類似度計算を改善する手法として、数値の前処理を適切に行った場合と行わない場合の両方で単語分散表現の学習を行い、前処理によって類似度計算が改善する傾向を確認した。 SNSの分析では、画像特徴量を利用したバズツイートの予測という題材で、テキストと画像との統合的解析の研究を行った。また、顔文字の感情抽出を題材として、文字を画像化して、BERTとCNNを併用した深層学習により分類する手法について研究を行った。 数値が重要となるテーマとして、生活習慣病とSNSテキストの関係についても研究を行った。闘病に関するブログを分析し、キーワードの抽出・分類を行うための研究や、SNSから、生活習慣病のリスクを予測するための研究を行った。 また、表形式とテキストの関係に関する研究として、インターネット通販サイトの表形式データをもとに、簡潔な商品紹介文を生成するための研究を行った。 このほか、分散表現の獲得において重要な手法である事前学習モデルBERTに関連して研究を進めた。BERTの内部構造解析に関する調査を進めたほか、BERTを用いた数値の分類や、攻撃的文書の分類に関する研究を行った。このほか、感情表現を利用した要約文の生成を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度は、数値を利用した分散表現の獲得や、事前学習モデルBERTを利用した数値分類の試みやBERT内部構造の調査等、分散表現に関する基礎技術の構築を行ったほか、数値とテキストの関係および、画像・表形式とテキストの関係に関して、基礎的な研究を行った。事前学習モデルの利用や、テキストと他のモダリティの関連の解析は、本研究提案において核心となるテーマである。 今後は、これら基礎技術をさらに発展させつつ、学術的情報の解析やSNS分析といった、本研究が最終的に対象とするデータ分析への活用を進めていく。
|
Strategy for Future Research Activity |
BERTの内部構造解析、数値を適切に考慮した分散表現の獲得について、引き続き研究を進めていく。また、BERTを利用した数値の分類に関しても、さらに研究を進めていく。また、前年度開発したNMFによる数値分布の表現ベクトルを利用し、数値の意味を言語と統合的に扱う手法について研究を進める。 投稿者の専門性や文書構造を利用した単語・数値重要度の測定については、まだ研究が進んでいないため、R4年度以降は、この部分の研究を進展させていく。
|
Causes of Carryover |
感染拡大防止のため、海外への渡航制限や、国内での移動が推奨されない環境があり、また、多くの学会がオンライン開催となったため、出張に関する費用が不要となった。R4以降は、現地開催の会議が増加することが予想されるため、会議参加のための出張旅費として使用する予定である。
|
Research Products
(17 results)