2014 Fiscal Year Research-status Report
Webマイニングによる新たな感染症流行予測手法の開発と危機管理支援システムの構築
Project/Area Number |
25460801
|
Research Institution | Tottori University |
Principal Investigator |
井上 仁 鳥取大学, 総合メディア基盤センター, 教授 (00176439)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 感染症 / ビッグデータ / Twitter / インフルエンザ |
Outline of Annual Research Achievements |
インターネットが普及した昨今では、インターネット上で膨大な情報のやり取りが行われている。社会現象を分析する際に、この膨大な情報(Big Data)は貴重な情報源である。我々は、インターネットのSNSに投稿される情報、およびローカル新聞社のホームページに掲載される情報が感染症(インフルエンザ)の流行予測に有効な情報源であるかどうかについて検討を行った。 平成24年11月から平成25年4月の間にTwitterに投稿されたデータおよび全国47都道府県ローカル新聞ホームページからインフルエンザという単語を含んだ記事を抽出して資料とした。前者は約90万件、後者は約5万件検出された。それぞれのデータを週単位に分割し、各週でのデータ頻度を集計した。感染症発生動向調査データとTwitterデータの相関関係を調べたところ0.81と非常に高い相関関係が認められた。さらにインフルエンザの流行開始時期と同期してTwitterの投稿も急激に増えることが認められ、即時性のある情報源であることが示唆された。 Twitterの投稿に地理的情報が含まれている場合は、投稿者の地域が特定できる。しかしながら今回資料とした約90万件の投稿記事の内、地域が特定できたのはわずかであり、また投稿された地域はかなり偏在していた。Twitter情報は全国的な流行状況の予測には重要な情報源となりうる可能性があるものの、都道府県別流行状況の予測には不十分であることが示唆された。47都道府県のローカル新聞のホームページについて、インフルエンザという単語を含んだ記事数と各都道府県の感染症発生動向調査データとの相関関係を調べたところ、0.76という高い相関関係が認められた県がある一方で、0.35というさほど相関関係の見られない県もあるなど、大きなばらつきがあった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成26年度は主にデータの収集を中心に作業を行った。各都道府県別のインフルエンザ発生数については、国立感染症研究所・感染症疫学センターから提供されている感染症発生動向調査週報を利用して、2000年から現在まで各都道府県別に780週分のデータを資料として整理した。Twitterからのデータ収集については、Twitter社のAPIを利用したプログラムを作成して自動収集の仕組みを構築したが、NTTデータ社から有償で提供されているデータの方が詳細な情報が掲載されているため、平成24年11月から平成25年4月の間に投稿されたインフルエンザに関するデータ約90万件を購入して資料とした。47都道府県の各ローカル新聞社ホームページからのデータ収集はGoogle社が提供するAPIを用いた自作プログラムによって行った。平成24年11月から毎月曜日の午前中に当該ローカル新聞分社のホームページに掲載された過去1週間分のデータからインフルエンザを含む記事を抽出し、約5万件をデータとした。今年度は感染症発生動向調査データとTwitter並びにローカル新聞ホームページ記事数とを相関分析し、両者の関係の概略を把握するのみに留まった。その結果、全国レベルでは発生動向調査とTwitterデータとの間には強い相関関係があることが認められた。ローカル新聞の記事については高い相関が認められた県がある一方でさほどの関係が認めらない県があるなど大きなばらつきが見られた。詳細な時系列分析については平成27年度の作業と考えている。
|
Strategy for Future Research Activity |
研究期間の最後となる平成27年度は流行の将来予測モデルの作成と評価を主眼に研究を進め、以下の4つの手順で実施する。(1)感染症発生動向調査データの時系列分析に基づく流行モデルの作成:感染症発生動向調査データに関しては2000年から現在まで各都道府県の週別発生数データを蓄積している。このデータに対して、ARIMA Forecastあるいは最近隣法の手法を適応して最適な将来予測モデルの作成を目指す。(2)Twitterデータの有効活用:平成26年度の解析では、全国レベルでのTwitterデータと感染症発生動向調査データとの間には強い相関が認められた。平成27年度については都道府県レベルでの解析を行う。まずTwitterデータから投稿者の所在地が分かるデータの抽出を行い、都道府県別に感染症発生動向調査データとの相関分析を試みる。(3)ローカル新聞社HP情報の有効活用:平成26年度の調査では、当地の感染症発生動向調査データと高い相関を示しているものもあれば、相関関係が認められないものまでばらつきが大きかった。この原因は、単にインフルエンザという単語を含んだ記事数だけに注目し、記事の内容については分類していないのが原因と思われる。そこで、平成27年度は記事の内容を分析して流行予測に有効な情報の抽出方法についても検討を加えたい。(4)感染症発生動向調査に基づく流行予測モデルの精度向上:我々は流行予測の基盤となる情報は感染症発生動向調査データであると思っている。しかしながら、感染症発生動向調査はデータ収集から公表まで2週間もの遅延があることが問題であるとの指摘がある。感染症発生動向調査データの時系列分析に、Twitterデータ及びローカル新聞社のHP情報を組み合わせることで、その遅れを補完したより精度の高い流行予測モデルの作成を目指す。
|
Causes of Carryover |
残金が4129円と少額であり、あえて0円にすることなく来年度に回すことにした。
|
Expenditure Plan for Carryover Budget |
来年度のTwitterデータ購入の足しにしたい。
|
Research Products
(1 results)