2020 Fiscal Year Annual Research Report
Natural Language Processing Technologies for Formulaic Expressions
Project/Area Number |
18H03297
|
Research Institution | National Institute of Informatics |
Principal Investigator |
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 定型表現 / 執筆支援 / ドメイン・コーパス / 辞書自動構築 / 意味表現 |
Outline of Annual Research Achievements |
英語による文書作成を支援するための定型表現集が数多く出版されているが、その大半は電子化されておらず、電子化されていたとしても執筆途中に必ずしも気軽に利用できるものではない。本課題では、英語の非母語話者による論文執筆支援に焦点をあてて、ユーザのあいまいな入力に基づき適切な定型表現を提示する手法の開発に取り組んでいる。具体的には、大量の論文コーパスを計算機で解析して、談話構造などに対応づけられた豊富な文脈情報を獲得することで、定型表現の予測や検索精度の向上に結びつける手法の確立を目指している。
本年度は、異なる4つの学術分野を対象として、定型表現機能の正解付きデータセットを構築し、ニューラルネットワークに基づく予測手法で優れた性能が得られることを示した。また、定型表現の抽出手法に関する研究に取り組み、固有表現抽出および依存構造解析を用いた定型表現抽出法を新たに提案して有効性を示した。さらに、これまでの研究成果に基づき、機能的な意味を付与した大規模な定型表現データベースを実際に構築し、機能的な意味に基づく定型表現検索により、従来のキーワード検索では得られない多様な表現が得られることを検証した。
|
Research Progress Status |
令和2年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和2年度が最終年度であるため、記入しない。
|
Research Products
(5 results)