2020 Fiscal Year Annual Research Report
マイクロブログで言及される事物に関する緊急イベントの究明とその実時間モニタリング
Project/Area Number |
18J22830
|
Research Institution | The University of Tokyo |
Principal Investigator |
赤崎 智 東京大学, 情報理工学系研究科, 特別研究員(DC1)
|
Project Period (FY) |
2018-04-25 – 2021-03-31
|
Keywords | Webマイニング / ソーシャルメディア / 自然言語処理 / 固有表現抽出 / エンティティリンキング / エンティティタイピング |
Outline of Annual Research Achievements |
本研究では,「総武線の遅延」,「SMAPの解散」,「iPhone 8の爆発」,「Nintendo Switchの発売」などの,人の意思決定に影響を与える「事物の緊急イベント」をマイクロブログからリアルタイムで発見するシステムを実現する.まず,事物の緊急イベントというのは自明ではないため,過去の新聞やニュース記事などのイベントからマイクロブログ上で反響のあったイベントを見つけ出し,それに関するマイクロブログの言及をパターンとしてデータベースに集積する.次に,低頻度だが多数のロングテールな事物や新規に発生する事物については,緊急イベントを発見するための統計的な手がかりが得られないため,その事物の概念(上位語)を推定する手法を確立する.以上の2つの技術を統合し,緊急イベントに関する言及のパターンを事物の概念単位で共有し,あらゆる事物の緊急イベントのリアルタイムな把握を実現することを目的とする. 本年度は,前年度から継続して行っていたマイクロブログから発見した事物の上位語やタイプへの汎化についての研究について,国際会議投稿のために手法の再実装と評価を詳細に行った.提案手法の概要は以下の通りである.1.既存手法が単一の投稿からタイプ分類を行っているのに対し,提案手法はマイクロブログの特性を生かし,同時間帯に出現する複数の投稿をモデルの入力として用いて頑健なタイプ分類を行う.2.機械学習のモデルとしてテキスト本文だけでなく,事物の表層文字列や,対象の事物と共起する事物,投稿のユーザIDやURLの文字列といった,メタ的な情報などをも駆使する深層学習手法を考案し,複数の情報から相補的にタイプ分類を行う.実験では,既存のモデルの性能を上回り最高性能を達成したほか,ノイジーなコンテキストが多く分類が難しい同名異義な事物についても大幅な性能向上を達成した.
|
Research Progress Status |
令和2年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和2年度が最終年度であるため、記入しない。
|
Research Products
(1 results)