研究課題/領域番号 |
18J22830
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 国内 |
研究分野 |
知能情報学
|
研究機関 | 東京大学 |
研究代表者 |
赤崎 智 東京大学, 情報理工学系研究科, 特別研究員(DC1)
|
研究期間 (年度) |
2018-04-25 – 2021-03-31
|
研究課題ステータス |
完了 (2020年度)
|
配分額 *注記 |
2,800千円 (直接経費: 2,800千円)
2020年度: 900千円 (直接経費: 900千円)
2019年度: 900千円 (直接経費: 900千円)
2018年度: 1,000千円 (直接経費: 1,000千円)
|
キーワード | Webマイニング / ソーシャルメディア / 自然言語処理 / 固有表現抽出 / エンティティリンキング / エンティティタイピング |
研究実績の概要 |
本研究では,「総武線の遅延」,「SMAPの解散」,「iPhone 8の爆発」,「Nintendo Switchの発売」などの,人の意思決定に影響を与える「事物の緊急イベント」をマイクロブログからリアルタイムで発見するシステムを実現する.まず,事物の緊急イベントというのは自明ではないため,過去の新聞やニュース記事などのイベントからマイクロブログ上で反響のあったイベントを見つけ出し,それに関するマイクロブログの言及をパターンとしてデータベースに集積する.次に,低頻度だが多数のロングテールな事物や新規に発生する事物については,緊急イベントを発見するための統計的な手がかりが得られないため,その事物の概念(上位語)を推定する手法を確立する.以上の2つの技術を統合し,緊急イベントに関する言及のパターンを事物の概念単位で共有し,あらゆる事物の緊急イベントのリアルタイムな把握を実現することを目的とする. 本年度は,前年度から継続して行っていたマイクロブログから発見した事物の上位語やタイプへの汎化についての研究について,国際会議投稿のために手法の再実装と評価を詳細に行った.提案手法の概要は以下の通りである.1.既存手法が単一の投稿からタイプ分類を行っているのに対し,提案手法はマイクロブログの特性を生かし,同時間帯に出現する複数の投稿をモデルの入力として用いて頑健なタイプ分類を行う.2.機械学習のモデルとしてテキスト本文だけでなく,事物の表層文字列や,対象の事物と共起する事物,投稿のユーザIDやURLの文字列といった,メタ的な情報などをも駆使する深層学習手法を考案し,複数の情報から相補的にタイプ分類を行う.実験では,既存のモデルの性能を上回り最高性能を達成したほか,ノイジーなコンテキストが多く分類が難しい同名異義な事物についても大幅な性能向上を達成した.
|
現在までの達成度 (段落) |
令和2年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和2年度が最終年度であるため、記入しない。
|