研究課題/領域番号 |
23K04311
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分25020:安全工学関連
|
研究機関 | 上智大学 |
研究代表者 |
安納 住子 上智大学, 地球環境学研究科, 教授 (10333527)
|
研究分担者 |
銭 学鵬 上智大学, 地球環境学研究科, 教授 (30512454)
|
研究期間 (年度) |
2023-04-01 – 2027-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,810千円 (直接経費: 3,700千円、間接経費: 1,110千円)
2026年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2025年度: 130千円 (直接経費: 100千円、間接経費: 30千円)
2024年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2023年度: 2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
|
キーワード | イベントベースサーベイランス / 新興感染症 / 深層学習 |
研究開始時の研究の概要 |
未知の新興感染症に備えた危機管理として、感染リスクイベントをもとに早期に異常を探知するイベントベースサーベイランスが国内外で推奨されている。ツイッターの投稿文は、異常イベントの早期探知と感染流行の防止効果が期待されている。しかし、個人の主観に基づく発言内容は臨床診断に基づいておらず、罹患の事実を反映しているとは限らない。それゆえ、投稿文の真偽を高精度で判別する分類器の開発が喫緊の課題となっている。本研究は、深層学習を応用し、投稿文の真偽を判別する分類器の開発、感染リスクの予測、SNSによる早期探知と感染警戒システムの構築、実利用における有効性を検証する評価実験を行う。
|
研究実績の概要 |
令和5年度はTwitterおよびWeiboに投稿されたCOVID-19に関連する日本語と中国語の投稿文を収集するプログラムの作成と投稿文の収集を計画した。 別の疾病に関する先行研究において作成したプログラムをもとに、上記目的のプログラムを作成し、また、文献調査をもとにキーワードも準備した。 しかし、2022年10月にTwitterが買収されたのに伴い、投稿文収集に必要なAcademic Research用のTwitter APIが有料化された。過去の投稿文を収集するためには、Twitter API Proの使用料として5,000ドル/月を支払う必要が生じた。そこで別の手段を探したところ、ほぼ同等の価格で投稿文が購入可能なことが判明したので、日本企業に発注し、2019年11月から2020年4月までの「日時」「経緯度」「場所」「本文」「キーワード」の属性を含む投稿文を購入して収集した。 Weiboの過去の投稿文収集についても、Weibo APIによるメッセージ数が制限されてしまうことが判明したため、現地の中国企業に発注し、2019年2月から2020年4月までの「日時」「経緯度」「場所」「本文」「キーワード」の属性を含む投稿文を購入して収集した。 以上のように、令和5年度の目的であるTwitterおよびWeiboの投稿文収集は達成できた。ただし、当初、日本語と中国語の投稿文を収集することを計画していたが、予算の都合上、中国語の投稿文のみに絞ることにした。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
計画していたTwitterおよびWeiboに投稿されたCOVID-19に関連する中国語の投稿文が収集できたから。
|
今後の研究の推進方策 |
令和6年度は、投稿文の収集期間にあわせて、COVID-19新規感染者数データも収集する。また、収集した中国語の投稿文に対して2種類の前処理:(1)投稿文に含まれる、URL、絵文字等を削除するクリーニング(2)数字を中国語の漢字へ変換など中国語文の正規化をそれぞれ行う。さらに、個々の投稿文に対し、自覚症状を含め感染リスクイベントに関連するか(正例)否か(負例)を判定して投稿文に正解ラベルを付けるアノテーション作業については、専門業者に依頼し、また、中国語を母国語とする研究分担者がアノテーションの内容を確認する。 令和7年度は、令和6年度に作成されたデータセットと深層学習の事前学習済みモデルによる学習を行うことにより、投稿文の正例負例を判別する分類器(モデル)を開発する。具体的には、複数の事前学習済みモデルをファインチューニングし、テストデータを用いて分類器(モデル)の精度を比較し、精度が最も高い分類器(モデル)をシステム用に採用する。 令和8年度は、予測モデル開発とシステム構築・評価実験を行う。分類器(モデル)で得られた正例の投稿文データとCOVID-19の患者数データをもとに時空間分析を行い、感染症発生と関係があり、出現頻度の高い単語を特徴量として抽出する。特徴量とCOVID-19感染報告数を組み合わせて、COVID-19の感染リスクを予測するモデルを開発する。感染リスクを時空間上に可視化するAWSのシステムを構築するとともに、実利用におけるシステムの有効性を検証する評価実験を行う。
|