2015 Fiscal Year Annual Research Report
文書閲覧・執筆支援のための遍在的テキストリンケージ
Project/Area Number |
15H02754
|
Research Institution | National Institute of Informatics |
Principal Investigator |
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 言語横断情報推薦 / エンティティリンキング / 専門用語翻訳 / 意味の分散表現 / 英語論文執筆支援 |
Outline of Annual Research Achievements |
英語論文の執筆は非母語話者の研究者にとって切実な問題であるが、コーパスの大規模化や自然言語処理技術の進歩にもかかわらず、支援システム実現への道筋はまだ見えていない。そこで本研究では、ユーザが読み書きするテキストの任意の箇所に、意味的に類似する他のテキストを対応づけて用例として推薦するための遍在的な意味インデクシング法を新たに提案して、この問題の解決に挑む。また適用対象として情報学分野の論文に焦点をあてて、研究代表者が実績を有する学術コンテンツ基盤上でデータ整備やシステム構築を行い、提案する言語横断的な意味インデクシング法の実証的な評価を行う。
平成27年度では、まず、専門用語を対象とした辞書データベースの構築に取り組んだ。言語処理における「辞書」の役割は多様で、表記揺れ、対訳、文書中の用例へのリンク、曖昧性解消のため文脈、コーパス中での頻度などの情報を網羅する必要がある。しかし、現存する辞書資源はどれも単独では必要な項目をカバーしないことから、専門用語辞典、著者キーワード、対訳コーパスから自動構築した対訳フレーズ対など、異なるタイプの辞書を統合することで、網羅性が高い日英対訳専門用語データベースを構築した。平成27年度ではまた、国立情報学研究所で利用可能な約70万件の和英論文抄録から新たに対訳コーパスを構築するとともに、XML形式で表現された論文全文データからセクションや参考文献を抽出するためのツールや環境の整備を進めた。
これらの言語資源を活用しながら、平成27年度では、テキストから専門用語を抽出して、表記揺れや曖昧性を考慮しながら、Wikipediaなどの外部の知識源に対応づける専門用語リンキング・サーバのプロトタイプを構築して予備的な評価を行った。また、対訳文コーパスを学習用コーパスとして意味表現を獲得し、これに基づき類似文を検索する手法を実装して評価を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究では、(1) 専門用語リンキング、(2) 構造化意味ベクトルの生成、(3) 実文書解析技術と言語資源構築、の3つの研究課題について検討を進めながら、並行して (4) 実証システムの構築および評価に取り組む。
初年度となる平成27年度では、(3) および(4)について、解析の基盤となる言語リソースを予定通りに開発するとともに、文書の論理構造解析や用語の正規化のためのツールを整備した。本研究では、意味表現を扱う際に多言語コーパスを活用する予定であり、そのために必須の対訳辞書や対訳コーパスについて、大規模な資源を構築するとともに、予備的実験でも活用することができた。これらは研究期間を通して、最新の論文データベースから再構築することが可能である。また、構築した対訳用語コーパスを機械翻訳の学習用データとすることで、専門用語の自動翻訳機能を実装して、日本語の論文から英語の論文を推薦する言語横断検索に適用した。
平成27年度で予定していた(1) の専門用語リンキング・サーバについては、プロトタイプ版を構築して、すでに数百万件の抄録、数万件の全文テキストを用いた検証に着手している。また、既存のエンティティリンキングの多くは固有表現を対象としているため、リンク先の項目について階層性を考慮する必要がないが、専門用語は概念体系の中に位置づけられるものであることから、リンキングにおいて抽象的な概念に対応する必要があることがわかっている。次年度以降は、評価用のデータセットを用いた有効性の評価に取り組むとともに、手法の改善や拡張に取り組む予定である。(2)の構造化意味ベクトルについては、論文セクション構造が本年度利用可能となったことから、次年度以降にさらに検討を進める。
|
Strategy for Future Research Activity |
平成27年度の研究に基づき、平成28年度は以下の課題について研究を進める。
○専門用語を対象としたリンキングサーバの構築と評価: 平成27年度で収集した専門的なキーワードについて、対訳関係等を利用して表記揺れのルールを抽出する。これを用いて、論文のテキストから抽出した専門用語の表記を正規化して、Wikipedia等の外部データベースの見出し語に対応づける機能を実装する。また、対応する見出し語が見つからない場合に、専門用語を構成する語の関係を統計的に推測しながら、適切な見出し候補を提示する手法を提案し、有効性を評価する。 ○構造化意味ベクトルの生成手法の開発: セクション単位で分割された論文集合に基づき論文の各セクションの役割を特徴づけるフレーズを自動抽出して、セクションのベクトル表現を構成する手法の開発に取り組む。また、論文中で特徴的に用いられる機能的な表現を手掛かりに、セクション内に出現する文の類似検索を行う手法を検討し、分散意味表現に基づく類似検索と比較した場合の違いや相補的に用いるメリット等を調査する。 ○文コーパスの構築と分析: 自然言語処理分野の国際会議を網羅する ACL_Anthologyの論文(PDF)から抽出したテキスト/文をコーパスとして整備するとともに、それを利用した専門用語や定型表現の抽出手法の開発と実装に取り組む。既存の技術を用いた文検索システムを実装して有用性や課題を調査する。また、ユーザの読解・作文過程のログ機能を備えた簡単なウェブベースのツールを実装して、英語論文の校正における例文検索の有用性評価のための環境を構築する。
|
Research Products
(5 results)