研究課題/領域番号 |
18H03245
|
研究機関 | 京都大学 |
研究代表者 |
田島 敬史 京都大学, 情報学研究科, 教授 (60283876)
|
研究分担者 |
櫻井 保志 大阪大学, 産業科学研究所, 教授 (30466411)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 時間依存情報 / 検索結果多様化 / 情報有効期限 / 時系列ビッグデータ / リアルタイムAI技術 / 予測 / 特徴抽出 |
研究実績の概要 |
Webからの情報収集技術に関しては,あるキーワードに関する多様な情報をWeb上から収集する技術を開発した.あるキーワードに関連する非常に大きなトピックがある場合,そのキーワードによる通常のWeb検索では,その大きなトピックに関する情報で検索上位が占められてしまい,より小さな話題に関する情報が収集できない.そこで,小さな話題の各々に関連するフレーズを自動生成し,これらを用いたフレーズ検索を行うことにより,多様な情報を収集する技術を開発した.また,Twitterなどのソーシャルメディア上には,時間依存性が低い情報と,時間依存性が高く,ある有効期限まで有効であるような情報の双方が流れており,様々な活動の時間変化を知るためにソーシャルメディアを用いるためには,これら二種類を区別する必要がある.そこで,ソーシャルメディア上の過去のメッセージのテキストと,それに対するリツイートなどの反応の情報から,有効期限を推定するモデルを学習する手法を開発した. 時系列ビッグデータ解析の取り組みに関しては,Web情報など大規模な時系列データストリームに対し,時系列モデル間の因果関係(要因-結果関係)を捉え,事象の連鎖をモデル化し,そのモデル選択と将来予測を高速かつ完全自動で行う新技術を開発し、データマイニングの最難関トップ国際会議であるKDD2019において発表した.数ある予測手法の中で,世界最高の予測精度と計算速度を示しており,最新の深層学習と比較し最大で,約670,000倍の高速化,約10倍の高精度化(予測誤差88%減)を達成した.また,その他の研究成果として,時系列データストリームに対するリアルタイム特徴抽出技術,複数の属性をもつ複合時系列データを解析するための時系列テンソル解析技術を開発し,各々トップ国際会議であるCIKM2019とICDM2019において研究発表を行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
Web上,ソーシャルメディア上から,多様な事象,活動に関する時間依存情報を収集する技術を開発した.これらについては,一部を除いて論文の出版はまだだが,今後,進める予定である.また,Web情報など大規模な時系列データストリームのオンライン学習および予測手法,リアルタイム特徴自動抽出手法,時系列テンソル解析手法を考案し,技術評価を行い,これらの研究成果については,トップ国際雑誌であるKDD,CIKM,ICDMに論文が採択された.さらに国内では電子情報技術産業協会(JEITA),日本電気計測器工業会 (JEMIMA)など業界団体と交流し,産業界からのニーズのヒアリングを行いつつ,研究成果のPRを行った.
|
今後の研究の推進方策 |
今年度は,あるキーワードが与えられた時に,そのキーワードに関する多様な情報をWeb上から収集するための手法を開発したが,まったく新しい事象やイベントの際には,そもそも,どのようなキーワードを用いればよいかが不明ない場合がある.そこで,そのような場合に有効なキーワードを効率よく発見する手法を開発する. 時系列ビッグデータ解析の取り組みについては,上記技術を発展させ,社会現象,事件,流行など,様々な社会連鎖を表現した多数のモデルの中から,適切なモデル選択しながらリアルタイムにイベント検出/高速情報予測を行う新たな技術およびアプリケーションを開発する.
|