2016 Fiscal Year Annual Research Report
文書閲覧・執筆支援のための遍在的テキストリンケージ
Project/Area Number |
15H02754
|
Research Institution | National Institute of Informatics |
Principal Investigator |
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 言語横断情報推薦 / エンティティリンキング / 専門用語翻訳 / 意味の分散表現 / 英語論文執筆支援 |
Outline of Annual Research Achievements |
英語論文の執筆は非母語話者の研究者にとって切実な問題であるが、コーパスの大規模化や自然言語処理技術の進歩にもかかわらず、研究者はその恩恵に十分あずかっているとはいえない。そこで本研究では、ユーザが読み書きするテキストの任意の箇所に、意味的に類似する他のテキストを対応づけて用例として推薦するための遍在的な意味インデクシング法を新たに提案して、この問題の解決に挑む。また適用対象として情報学分野の論文に焦点をあてて、研究代表者が実績を有する学術コンテンツ基盤上でデータ整備やシステム構築を行い、提案手法の実証的な評価を行う。
平成27年度では、まず、専門用語を対象とした辞書データベースの構築に取り組み、表記揺れ、対訳、文書中の用例へのリンク、曖昧性解消のための文脈、コーパス中での頻度などの情報を収集して、網羅性が高い日英対訳専門用語データベースを構築した。また、国立情報学研究所で利用可能な約70万件の和英論文抄録から新たに対訳コーパスを構築した。そして、これらの言語資源を活用して、テキストから専門用語を抽出して、表記揺れや曖昧性を考慮しながら、Wikipediaなどの外部の知識源に対応づける専門用語リンキングサーバのプロトタイプを構築して予備的な評価を行った。
これを受けて平成28年度では、外部知識や文書の談話構造を考慮した意味表現の獲得に関する検討を進めた。具体的には、WordNetの同義語関係をニューラルネットワークの構造に取り込んだ分散表現の獲得法に注目し、上位下位関係など任意の関係に拡張する手法を提案した。また、明示的および暗黙的な談話標識への意味ラベル付与の手法を検討し、談話構造自体の分散表現の獲得に関する検討に取り組んだ。さらに平成28年度では、文章の「意味」を構成する要素の分析に取り組み、自然言語処理の文章理解タスクを対象として、読解スキルの分類やタスクの比較を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では、(1) 与えられたテキストから分野に特化した専門用語を自動抽出するための専門用語リンキングシステムの構築、(2) 語や用語、文、文書に対する分散表現である構造化意味ベクトルの生成に関する検討、(3) 科学技術論文に解析手法を適用するためのツールおよび資源の整備、の3つの研究課題について検討を進め、 (4) 実際の論文データを用いて評価を行う。
(1)の専門用語リンキングシステムの構築については、平成27年度においてプロトタイプ版を構築して、数百万件の抄録、数万件の全文テキストを用いた検証に着手した。ここで、既存のエンティティリンキングの多くは固有表現を対象としているためリンク先の項目について階層性を考慮する必要がないが、専門用語は概念体系の中に位置づけられるものであることから、リンキングにおいて抽象的な概念に対応する必要があることがわかっている。このため、平成28年度は、専門用語リンキングの評価用データセットを構築するためのユーザインタフェースを実装するとともに、これを用いて予備的なデータセットを作成して、これまでに提案した手法の分析を行った。(2)の構造化意味ベクトルについて、平成28年度において、実際にword2vecなどの標準的な手法を適用して分散表現を獲得するとともに、係り受け解析の結果や外部知識を取り込む方法の検討に着手した。また、談話構造の意味表現についてもあわせて検討した。
(3) および(4)について、解析の基盤となる言語リソースは平成27年度に予定通りに整備しており、文書の論理構造解析や用語の正規化のためのツールについては、平成28年度も継続的に改善・追加している。現在、共参照解析の扱いが課題となっており、平成29年度でさらに検討を進める予定である。
|
Strategy for Future Research Activity |
平成28年度の研究に基づき、平成29年度は以下の課題について研究を進める。 (1)専門用語を対象としたリンキングサーバの構築と評価: 平成28年度では、論文中の専門用語をWikipedia等の外部データベースの見出し語に対応づけるための専門用語リンキング手法を検討した。平成29年度はこれをサーバ上で実装し、与えられた任意のテキストに対して、専門用語を抽出し、対応するWikipediaの記事に対応付ける仕組みをAPIとして実現する。また、辞書に登録されていない専門用語の自動翻訳機能の改善に取り組む。 (2)構造化意味ベクトルの生成と文検索・提示手法の検討: 平成28年度に引き続き、専門用語の分散表現、係り受け関係の分散表現、文書の分散表現を組み合わせて、与えられた文ペアの類似度を計算する手法を研究する。また、類似度計算に用いるための文圧縮手法を検討するとともに、平成28年度に引き続き、論文の論理構造を特徴づける定型表現の自動抽出手法の研究に取り組む。さらに、計算機による文章理解と質問応答に関する体系的な分析を行い、自然言語文の解析に必要となる機能を明らかにする。 (3)コーパス構築・実文書処理: 平成28年度では、専門用語の対訳ペアコーパスを利用して、辞書の拡張や正規化ルールの獲得を行った。平成29年度では、自然言語処理分野の国際会議を網羅する ACL_Anthology上の論文を対象に、PDF構造解析に基づき得られたテキストをクリーニングして、自然言語文コーパスを整備する。
|
Research Products
(8 results)