2015 Fiscal Year Annual Research Report

文書閲覧・執筆支援のための遍在的テキストリンケージ

Research Project

Project/Area Number	15H02754
Research Institution	National Institute of Informatics
Principal Investigator	相澤彰子国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
Project Period (FY)	2015-04-01 – 2018-03-31
Keywords	言語横断情報推薦 / エンティティリンキング / 専門用語翻訳 / 意味の分散表現 / 英語論文執筆支援
Outline of Annual Research Achievements	英語論文の執筆は非母語話者の研究者にとって切実な問題であるが、コーパスの大規模化や自然言語処理技術の進歩にもかかわらず、支援システム実現への道筋はまだ見えていない。そこで本研究では、ユーザが読み書きするテキストの任意の箇所に、意味的に類似する他のテキストを対応づけて用例として推薦するための遍在的な意味インデクシング法を新たに提案して、この問題の解決に挑む。また適用対象として情報学分野の論文に焦点をあてて、研究代表者が実績を有する学術コンテンツ基盤上でデータ整備やシステム構築を行い、提案する言語横断的な意味インデクシング法の実証的な評価を行う。平成27年度では、まず、専門用語を対象とした辞書データベースの構築に取り組んだ。言語処理における「辞書」の役割は多様で、表記揺れ、対訳、文書中の用例へのリンク、曖昧性解消のため文脈、コーパス中での頻度などの情報を網羅する必要がある。しかし、現存する辞書資源はどれも単独では必要な項目をカバーしないことから、専門用語辞典、著者キーワード、対訳コーパスから自動構築した対訳フレーズ対など、異なるタイプの辞書を統合することで、網羅性が高い日英対訳専門用語データベースを構築した。平成27年度ではまた、国立情報学研究所で利用可能な約70万件の和英論文抄録から新たに対訳コーパスを構築するとともに、XML形式で表現された論文全文データからセクションや参考文献を抽出するためのツールや環境の整備を進めた。これらの言語資源を活用しながら、平成27年度では、テキストから専門用語を抽出して、表記揺れや曖昧性を考慮しながら、Wikipediaなどの外部の知識源に対応づける専門用語リンキング・サーバのプロトタイプを構築して予備的な評価を行った。また、対訳文コーパスを学習用コーパスとして意味表現を獲得し、これに基づき類似文を検索する手法を実装して評価を行った。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本研究では、(1) 専門用語リンキング、(2) 構造化意味ベクトルの生成、(3) 実文書解析技術と言語資源構築、の３つの研究課題について検討を進めながら、並行して (4) 実証システムの構築および評価に取り組む。初年度となる平成27年度では、(3) および(4)について、解析の基盤となる言語リソースを予定通りに開発するとともに、文書の論理構造解析や用語の正規化のためのツールを整備した。本研究では、意味表現を扱う際に多言語コーパスを活用する予定であり、そのために必須の対訳辞書や対訳コーパスについて、大規模な資源を構築するとともに、予備的実験でも活用することができた。これらは研究期間を通して、最新の論文データベースから再構築することが可能である。また、構築した対訳用語コーパスを機械翻訳の学習用データとすることで、専門用語の自動翻訳機能を実装して、日本語の論文から英語の論文を推薦する言語横断検索に適用した。平成27年度で予定していた(1) の専門用語リンキング・サーバについては、プロトタイプ版を構築して、すでに数百万件の抄録、数万件の全文テキストを用いた検証に着手している。また、既存のエンティティリンキングの多くは固有表現を対象としているため、リンク先の項目について階層性を考慮する必要がないが、専門用語は概念体系の中に位置づけられるものであることから、リンキングにおいて抽象的な概念に対応する必要があることがわかっている。次年度以降は、評価用のデータセットを用いた有効性の評価に取り組むとともに、手法の改善や拡張に取り組む予定である。(2)の構造化意味ベクトルについては、論文セクション構造が本年度利用可能となったことから、次年度以降にさらに検討を進める。
Strategy for Future Research Activity	平成27年度の研究に基づき、平成28年度は以下の課題について研究を進める。 ○専門用語を対象としたリンキングサーバの構築と評価：　平成27年度で収集した専門的なキーワードについて、対訳関係等を利用して表記揺れのルールを抽出する。これを用いて、論文のテキストから抽出した専門用語の表記を正規化して、Wikipedia等の外部データベースの見出し語に対応づける機能を実装する。また、対応する見出し語が見つからない場合に、専門用語を構成する語の関係を統計的に推測しながら、適切な見出し候補を提示する手法を提案し、有効性を評価する。 ○構造化意味ベクトルの生成手法の開発：　セクション単位で分割された論文集合に基づき論文の各セクションの役割を特徴づけるフレーズを自動抽出して、セクションのベクトル表現を構成する手法の開発に取り組む。また、論文中で特徴的に用いられる機能的な表現を手掛かりに、セクション内に出現する文の類似検索を行う手法を検討し、分散意味表現に基づく類似検索と比較した場合の違いや相補的に用いるメリット等を調査する。 ○文コーパスの構築と分析：　自然言語処理分野の国際会議を網羅する ACL_Anthologyの論文（PDF）から抽出したテキスト／文をコーパスとして整備するとともに、それを利用した専門用語や定型表現の抽出手法の開発と実装に取り組む。既存の技術を用いた文検索システムを実装して有用性や課題を調査する。また、ユーザの読解・作文過程のログ機能を備えた簡単なウェブベースのツールを実装して、英語論文の校正における例文検索の有用性評価のための環境を構築する。

Research Products
(5 results)

All 2016 2015

All Presentation (5 results) (of which Int'l Joint Research: 2 results)

[Presentation] 極小言語戦略による文テンプレート獲得.2016
- Author(s)
  服部一浩, 横野光, 相澤彰子
- Organizer
  言語処理学会第22回年次大会(NLP2016)
- Place of Presentation
  東北大学, 仙台市
- Year and Date
  2016-03-08 – 2016-03-10
[Presentation] Extracting Structure from Scientific Abstracts.2015
- Author(s)
  Paul Willot, Kazuhiro Hattori, Akiko Aizawa
- Organizer
  17th Asian Digital Library Conference (ICADL 2015)
- Place of Presentation
  Seoul, Korea
- Year and Date
  2015-12-09 – 2015-12-12
- Int'l Joint Research
[Presentation] Technical Term and Keyphrase Extraction Using Measures of Neology.2015
- Author(s)
  Christopher Norman, Akiko Aizawa
- Organizer
  Keyphrase-Novel Computational Approaches to Keyphrase Extraction, Workshop in ACL-IJCNLP 2015
- Place of Presentation
  Beijing, China
- Year and Date
  2015-07-30 – 2015-07-30
- Int'l Joint Research
[Presentation] ベクトル空間モデルを用いた英文コロケーション誤り訂正.2015
- Author(s)
  橋本捷人, 相澤彰子
- Organizer
  第222回自然言語処理研究会
- Place of Presentation
  首都大学東京秋葉原サテライトキャンパス, 東京都
- Year and Date
  2015-07-15 – 2015-07-16
[Presentation] 文書分類のためのフレーズパターンの生成.2015
- Author(s)
  服部一浩, 横野光, 相澤彰子
- Organizer
  2015年度人工知能学会全国大会(第29回)
- Place of Presentation
  公立はこだて未来大学, 函館市
- Year and Date
  2015-05-30 – 2015-06-02

2015 Fiscal Year Annual Research Report

文書閲覧・執筆支援のための遍在的テキストリンケージ

Principal Investigator

相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)

Current Status of Research Progress

Reason

Research Products

[Presentation] 極小言語戦略による文テンプレート獲得.2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Extracting Structure from Scientific Abstracts.2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Technical Term and Keyphrase Extraction Using Measures of Neology.2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] ベクトル空間モデルを用いた英文コロケーション誤り訂正.2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 文書分類のためのフレーズパターンの生成.2015

Author(s)

Organizer

Place of Presentation

Year and Date

相澤彰子国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)