2019 Fiscal Year Annual Research Report

常識的知識を活用した言語理解・推論に基づく議論マイニングの新展開

Research Project

Project/Area Number	19H01118
Research Institution	Tokyo Institute of Technology
Principal Investigator	岡崎直観東京工業大学, 情報理工学院, 教授 (50601118)
Co-Investigator(Kenkyū-buntansha)	荒牧英治奈良先端科学技術大学院大学, 研究推進機構, 特任准教授 (70401073)
Project Period (FY)	2019-04-01 – 2024-03-31
Keywords	自然言語処理 / 意味解析 / 議論マイニング / SNS分析 / 知識獲得
Outline of Annual Research Achievements	本研究は、ソーシャルメディアのテキストの高度な言語解析、常識的な知識の自動獲得、知識を活用した言語の理解・推論といった基盤研究を進め、ソーシャルメディア等から収集した人々の発言や意見を分析し、その議論構造を明らかにする研究に取り組むものである。 2019年度は、新聞記事やWikipedia記事、ソーシャルメディアの投稿履歴など、常識的知識を自動獲得するためのテキストデータの収集と、主張同士の関係の同定に必要となる常識的知識の種類（例えばＡはＢであるといったis-a関係や、ＡはＢで構成されるといったpart-whole関係、ＡはＢを増加させるといった促進の因果関係、ＡはＢを減少させるといった抑制の因果関係）を検討した。また、自動投稿ボットの判定、テキスト自動生成などの応用研究について動向を調査し、研究開発を進めた。また、代表的なソーシャルメディアであるTwitterについて、普遍的（国際的）な文法であるUniversal Dependencies (UD) に基づいてアノテーションを行った言語データ（1000文）を構築した。UDは、ソーシャルメディア特有の表現である顔文字やURL参照に対応していないため、本研究において必要な仕様拡張を行った。言語解析のための基盤研究も進めた。近年、自然言語処理の様々なタスクで精度向上の報告が相次いでいる文脈依存型単語埋め込みについて、言語学的、統計的、および意味的な単語の特徴が、文脈における単語ベクトルの分散とどのように相関するのか分析した。さらに、本研究で構築したコーパスを用い、言語解析器のプロトタイプを構築した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本研究は、コンピュータが常識的な知識を自動的に獲得し、その知識を活用することで、異なる箇所で言及される情報を記憶・蓄積し、不足している情報を補いながら文章を推論・解釈するアーキテクチャを実現することを目的とする。その目標実現のため、４つの研究項目を設定しているが、2019年度は研究項目１「議論マイニングに必要な常識的知識の獲得」と研究項目２「SNS上のテキストの意味解析技術の確立」を実施した。研究項目１では、分析の対象とする記事・投稿を収集し、その議論の構造（例えば主張間の「同意」「反論」などの関係）を付与した注釈付きコーパスの構築を進めた。このコーパスの分析を通して、テキストから主張の個所を抽出したり、主張同士の関係の同定に必要となる常識的知識の種類（例えば「is-a」関係や「促進」「抑制」などの因果関係など）を特定し、知識ベースの設計を進めた。研究項目２では、Twitterの投稿テキストに対して、国際的な文法である Universal Dependencies (UD) に準拠してアノテーションコーパス（1000文）の試作を行った。このとき、Twitter上でよく使われる顔文字にも対応できるアノテーション仕様を検討した。その他、構築したコーパスを用いた言語解析器の試作や、自然言語解析のための基盤研究を進めており、研究は順調に進展している。
Strategy for Future Research Activity	研究項目１では、構築するコーパスと知識ベースの仕様を固め、実際の構築作業を開始する。その際、2020年の国際社会の新たな課題である新型コロナウィルスに関するトピックを含めることも検討する。これらの仕様を固めたのち、自然言語のデータなどから常識的知識を自動的に獲得する手法を設計する。研究項目２では、開発したUDのコーパスを活用して、実際の言語処理タスクであるボット判定などのタスクに取り組む。また、昨年度のUDの拡張は顔文字、URLなど基本的なものにとどまったが、ソーシャルメディアのテキストでは発言者、フォロワーといった発言外の現実世界のコト・モノが関与する。このため、これらの外の関係をより積極的に取り込むアノテーション仕様を検討したい。これは、ネット上の言葉の文法を作る研究ともいえ、東工大岡崎研究室と奈良先端大の荒牧研究室の連携に加えて、言語学者などを交えた議論を行い、進める予定である。 2020年度から開始する研究項目３「自動獲得した常識的知識に基づいて推論するアーキテクチャの確立」では、自然言語処理分野で流行している文脈依存型単語埋め込みの利用を検討している。このアプローチについては、自然言語処理の種々のタスクの精度を向上させるだけでなく、事実や因果関係などの常識的な知識が言語モデルの事前学習により獲得される可能性が報告されている。本研究では、研究項目１で構築する知識ベースの拡張方法として、文脈依存型単語埋め込みに基づくアプローチの有用性を検討したい。

Research Products
(7 results)

All 2020 2019

All Journal Article (2 results) (of which Peer Reviewed: 2 results, Open Access: 2 results) Presentation (5 results) (of which Int'l Joint Research: 3 results, Invited: 2 results)

[Journal Article] Making Twitter Safer: Uncovering Social-Bot on Twitter through User’s Content Approach2020
- Author(s)
  Nigo Sumaila, Shoko Wakamiya, Eiji Aramaki
- Journal Title
  
  DBSJ Journal
  
  Volume: 18 Pages: 1-7
- Peer Reviewed / Open Access
[Journal Article] Stance Detection Attending External Knowledge from Wikipedia2019
- Author(s)
  Kazuaki Hanawa, Akira Sasaki, Naoaki Okazaki, Kentaro Inui
- Journal Title
  
  Journal of Information Processing
  
  Volume: 27 Pages: 499-506
- DOI
  10.2197/ipsjjip.27.499
- Peer Reviewed / Open Access
[Presentation] Analyzing the Variation Property of Contextualized Word Representations2019
- Author(s)
  Sakae Mizuki, Naoaki Okazaki
- Organizer
  AI 2019: Advances in Artificial Intelligence
- Int'l Joint Research
[Presentation] Neural Question Generation using Interrogative Phrases2019
- Author(s)
  Yuichi Sasazawa, Sho Takase, Naoaki Okazaki
- Organizer
  Proceedings of the 12th International Conference on Natural Language Generation
- Int'l Joint Research
[Presentation] Learning to Select, Track, and Generate for Data-to-Text2019
- Author(s)
  Hayate Iso, Yui Uehara, Tatsuya Ishigaki, Hiroshi Noji,_Eiji Aramaki, Ichiro Kobayashi, Yusuke Miyao, Naoaki Okazaki, Hiroya Takamura
- Organizer
  Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (ACL)
- Int'l Joint Research
[Presentation] 医療言語処理～これからのPatient Centricityを支援するテクノロジー～2019
- Author(s)
  荒牧英治
- Organizer
  ITヘルスケア学会
- Invited
[Presentation] モバイルヘルスケアを支える言語処理技術2019
- Author(s)
  荒牧英治
- Organizer
  情報計算化学生物学会（CBI)
- Invited

2019 Fiscal Year Annual Research Report

常識的知識を活用した言語理解・推論に基づく議論マイニングの新展開

Principal Investigator

岡崎 直観 東京工業大学, 情報理工学院, 教授 (50601118)

Current Status of Research Progress

Reason

Research Products

[Journal Article] Making Twitter Safer: Uncovering Social-Bot on Twitter through User’s Content Approach2020

Author(s)

Journal Title

[Journal Article] Stance Detection Attending External Knowledge from Wikipedia2019

Author(s)

Journal Title

DOI

[Presentation] Analyzing the Variation Property of Contextualized Word Representations2019

Author(s)

Organizer

[Presentation] Neural Question Generation using Interrogative Phrases2019

Author(s)

Organizer

[Presentation] Learning to Select, Track, and Generate for Data-to-Text2019

Author(s)

Organizer

[Presentation] 医療言語処理 ～これからのPatient Centricityを支援するテクノロジー～2019

Author(s)

Organizer

[Presentation] モバイルヘルスケアを支える言語処理技術2019

Author(s)

Organizer

岡崎直観東京工業大学, 情報理工学院, 教授 (50601118)

[Presentation] 医療言語処理～これからのPatient Centricityを支援するテクノロジー～2019