2017 Fiscal Year Annual Research Report
A study on text linkage for document browsing and writing assistance
Project/Area Number |
15H02754
|
Research Institution | National Institute of Informatics |
Principal Investigator |
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 言語横断情報推薦 / エンティティリンキング / 専門用語翻訳 / 意味の分散表現 / 英語論文執筆支援 |
Outline of Annual Research Achievements |
H28年度に引き続き、ユーザの読み書きを支援するための言語処理技術について、以下の課題に取り組んだ。 (1)専門用語を対象としたリンキングサーバの構築: 論文中の専門用語をWikipedia等の外部データベースの見出し語に対応づける専門用語リンキングサーバの実装と改善に取り組んだ。特に、与えられた任意のテキストから専門用語を抽出する機能を改善するとともに、一連の処理を呼び出すための外部APIを実現した。本リンキングサーバでは、機械翻訳手法の適用によって、辞書に登録されていない専門用語についても対訳表現を得ることが可能である。これによって、言語横断的な見出し語の対応付けや、それに基づく言語横断検索を可能にしている。 (2)文検索・提示手法の検討: 長文をわかりやすく提示するための文圧縮手法、および質問応答問題の分析について研究成果を発表した。また、深層学習により得られる分散表現を利用して文の類似度を求める手法の開発に取り組み、論文中に出現する文の重要度計算に適用して有効性を評価した。 (3)コーパス構築・実文書処理: 自然言語処理分野の国際会議を網羅する ACL_Anthology上の約4万件の論文を対象に、PDF構造解析に基づき得られたテキストをクリーニングして、文コーパスを構築した。また、論文の各セクションに役割ラベルを自動付与した。コーパス中の各文に、文書トピックおよびセクションラベルを対応づけることによって、文書の論理構造を考慮した意味ベクトルの生成が可能になった。また、構築したコーパスを論文で用いられる定型表現の獲得に適用して有用性を検証した。
|
Research Progress Status |
29年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
29年度が最終年度であるため、記入しない。
|
Research Products
(1 results)