研究課題/領域番号 |
19H01118
|
研究機関 | 東京工業大学 |
研究代表者 |
岡崎 直観 東京工業大学, 情報理工学院, 教授 (50601118)
|
研究分担者 |
荒牧 英治 奈良先端科学技術大学院大学, 研究推進機構, 特任准教授 (70401073)
|
研究期間 (年度) |
2019-04-01 – 2024-03-31
|
キーワード | 自然言語処理 / 意味解析 / 議論マイニング / SNS分析 / 知識獲得 |
研究実績の概要 |
本研究は、ソーシャルメディアのテキストの高度な言語解析、常識的な知識の自動獲得、知識を活用した言語の理解・推論といった基盤研究を進め、ソーシャルメディア等から収集した人々の発言や意見を分析し、その議論構造を明らかにする研究に取り組むものである。 2019年度は、新聞記事やWikipedia記事、ソーシャルメディアの投稿履歴など、常識的知識を自動獲得するためのテキストデータの収集と、主張同士の関係の同定に必要となる常識的知識の種類(例えばAはBであるといったis-a関係や、AはBで構成されるといったpart-whole関係、AはBを増加させるといった促進の因果関係、AはBを減少させるといった抑制の因果関係)を検討した。また、自動投稿ボットの判定、テキスト自動生成などの応用研究について動向を調査し、研究開発を進めた。また、代表的なソーシャルメディアであるTwitterについて、普遍的(国際的)な文法であるUniversal Dependencies (UD) に基づいてアノテーションを行った言語データ(1000文)を構築した。UDは、ソーシャルメディア特有の表現である顔文字やURL参照に対応していないため、本研究において必要な仕様拡張を行った。 言語解析のための基盤研究も進めた。近年、自然言語処理の様々なタスクで精度向上の報告が相次いでいる文脈依存型単語埋め込みについて、言語学的、統計的、および意味的な単語の特徴が、文脈における単語ベクトルの分散とどのように相関するのか分析した。さらに、本研究で構築したコーパスを用い、言語解析器のプロトタイプを構築した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究は、コンピュータが常識的な知識を自動的に獲得し、その知識を活用することで、異なる箇所で言及される情報を記憶・蓄積し、不足している情報を補いながら文章を推論・解釈するアーキテクチャを実現することを目的とする。その目標実現のため、4つの研究項目を設定しているが、2019年度は研究項目1「議論マイニングに必要な常識的知識の獲得」と研究項目2「SNS上のテキストの意味解析技術の確立」を実施した。 研究項目1では、分析の対象とする記事・投稿を収集し、その議論の構造(例えば主張間の「同意」「反論」などの関係)を付与した注釈付きコーパスの構築を進めた。このコーパスの分析を通して、テキストから主張の個所を抽出したり、主張同士の関係の同定に必要となる常識的知識の種類(例えば「is-a」関係や「促進」「抑制」などの因果関係など)を特定し、知識ベースの設計を進めた。研究項目2では、Twitterの投稿テキストに対して、国際的な文法である Universal Dependencies (UD) に準拠してアノテーションコーパス(1000文)の試作を行った。このとき、Twitter上でよく使われる顔文字にも対応できるアノテーション仕様を検討した。 その他、構築したコーパスを用いた言語解析器の試作や、自然言語解析のための基盤研究を進めており、研究は順調に進展している。
|
今後の研究の推進方策 |
研究項目1では、構築するコーパスと知識ベースの仕様を固め、実際の構築作業を開始する。その際、2020年の国際社会の新たな課題である新型コロナウィルスに関するトピックを含めることも検討する。これらの仕様を固めたのち、自然言語のデータなどから常識的知識を自動的に獲得する手法を設計する。 研究項目2では、開発したUDのコーパスを活用して、実際の言語処理タスクであるボット判定などのタスクに取り組む。また、昨年度のUDの拡張は顔文字、URLなど基本的なものにとどまったが、ソーシャルメディアのテキストでは発言者、フォロワーといった発言外の現実世界のコト・モノが関与する。このため、これらの外の関係をより積極的に取り込むアノテーション仕様を検討したい。これは、ネット上の言葉の文法を作る研究ともいえ、東工大岡崎研究室と奈良先端大の荒牧研究室の連携に加えて、言語学者などを交えた議論を行い、進める予定である。 2020年度から開始する研究項目3「自動獲得した常識的知識に基づいて推論するアーキテクチャの確立」では、自然言語処理分野で流行している文脈依存型単語埋め込みの利用を検討している。このアプローチについては、自然言語処理の種々のタスクの精度を向上させるだけでなく、事実や因果関係などの常識的な知識が言語モデルの事前学習により獲得される可能性が報告されている。本研究では、研究項目1で構築する知識ベースの拡張方法として、文脈依存型単語埋め込みに基づくアプローチの有用性を検討したい。
|