2017 Fiscal Year Annual Research Report
Adaptive Natural Language Processing for Analyzing Social Big Data
Project/Area Number |
16K16109
|
Research Institution | The University of Tokyo |
Principal Investigator |
吉永 直樹 東京大学, 生産技術研究所, 准教授 (90773961)
|
Project Period (FY) |
2016-04-01 – 2018-03-31
|
Keywords | 自然言語処理 / ソーシャル・ビッグデータ / 知識獲得 |
Outline of Annual Research Achievements |
(1) 本年度は、実世界テキストを解析するための世界知識、特に未知語に当たる新固有表現を、動的にソーシャルメディアから獲得する手法の開発を継続して進めた。具体的には、タスク設定の洗練、獲得手法の改善及び大規模評価を行った。まず、新固有表現を「公共性を有するメディアにおいて、新規出現に関する情報が提供・共有されるような固有名詞」と明確に定義し、人手による評価のためのガイドラインを整備した。次に,Wikipedia に基づく遠距離教師あり学習を利用した手法において、各投稿からの新固有表現を抽出する問題を系列ラベリングとして定式化し、その結果を統合することで信頼性の高い新固有表現を抽出するよう改良した。最終的に、(3)で収集したツイートから学習データを構成し、うち一週間分のデータで提案手法を評価し、提案手法が単純な固有表現抽出を用いた手法に対して高い適合率で新固有表現を獲得できることを確認した。
(2) 昨年度に引き続き、適応的なモデルの外部評価を行うためのアプリケーションの開発を進めた。具体的には、ニューラル機械翻訳手法の新規開発、係り受け解析等の基礎解析を利用してソーシャル・メディアから大衆の価値観を獲得する手法の精度改善、及び発話状況を考慮した対話システムの精度改善を行った。
(3)大規模評価用のマイクロブログコーパスの収集については、Twitter の投稿を API を利用して継続的に収集を進めており、(1)で開発した新固有表現抽出手法、(2)で開発した価値観獲得手法、及び対話システムを評価することに実際に使用した。
|
-
-
[Journal Article] Modeling Situations in Neural Chat Bots2017
Author(s)
Shoetsu Sato, Naoki Yoshinaga, Masashi Toyoda and Masaru Kitsuregawa
-
Journal Title
Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics - Student Research Workshop
Volume: -
Pages: 120-127
DOI
Peer Reviewed / Open Access
-
-
-
-
-
-
-
-
-
-