2018 Fiscal Year Annual Research Report
Natural Language Processing Technologies for Formulaic Expressions
Project/Area Number |
18H03297
|
Research Institution | National Institute of Informatics |
Principal Investigator |
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 定型表現 / 執筆支援 / ドメイン・コーパス / 辞書自動構築 / 意味表現 |
Outline of Annual Research Achievements |
英語による文書作成を支援するための定型表現集が数多く出版されているが、その大半は電子化されておらず、電子化されていたとしても執筆途中に必ずしも気軽に利用できるものではない。本課題では、この問題を解決するため、ユーザのあいまいな入力に基づき適切な定型表現を提示する手法の開発に取り組んでいる。具体的には、大量の論文コーパスを計算機で解析して、談話構造などに対応づけられた豊富な文脈情報を獲得することで、定型表現の予測や検索精度の向上に結びつける手法の確立を目指している。本年度は、英語の非母語話者による論文執筆支援システムを新たに提案して、その成果を国際会議で発表した。また、関連する自然言語処理の要素技術について、基礎的な検討に取り組んだ。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は、英語論文執筆における定型表現集の活用支援技術の確立に向けて、(1) 計算機可読な定型表現辞書の設計、および(2) 定型表現アノテーション付きコーパスの構築、の研究課題に取り組んだ。 (1)の計算機可読な定型表現集の設計では、まず計算機可読な定型表現集の表現形式を定義する。ここで、定型表現の表現形式には統一的な基準がなく、辞書によってバラバラであることがわかっている。その背後には、定型表現とその周辺語を区別せず、ユーザの解釈に任せているという本質的な問題がある。この問題を克服するため、本年度は、既存の定型表現集であるAcademic Phrasebankに登録されたフレーズについて、定型表現部分を人手でアノテーションして、定型表現の評価に活用できるように整備した。 (2)の定型表現アノテーション付きコーパスの構築では、コーパスから定型表現を対応づけて抽出する手法の検討に着手する。従来、定型表現の獲得には、頻度に基づく方法が用いられてきた。本年度は、計算言語学の論文アーカイブである ACL Anthologyから作成した文コーパスに対して、代表的な定型表現獲得手法を適用して、抽出される候補の分析・比較を行った。定型表現が抽出できるようになれば、既存の定型表現集に登録された定型表現のテンプレートを、指定されたドメインのコーパス中での用例と対応づけてデータベース化することが可能になる。 本年度はまた、関連する基礎手法として、文の骨格部分を自動抽出するための文圧縮手法や、文どうしのつながりや談話構造の解析手法に関する研究に取り組み、成果を発表した。
|
Strategy for Future Research Activity |
次年度は、本年度の検討結果に基づき、以下の課題に取り組む。 (1)の計算機可読な定型表現集の設計では、定型表現と機能カテゴリが対応付けられた既存の定型表現集を、定型表現の検索システムの評価に活用するためのデータ整備を進める。特に、Academic Phrasebankは、Swalesの提唱する論文の論理構造を参照して機能カテゴリが体系的に整理されていることから、機能カテゴリどうしの関係の分析にも適している。そこでAcademic Phrasebankの利用を想定してデータセットの構築を目指す。 (2)の定型表現アノテーション付きコーパスの構築では、与えられた文の各単語に対して、定型表現の一部であるかそうでないかのラベルを付与する手法の有効性を検討する。また、指定したドメイン・コーパスから擬似的な訓練用データを自動構築する手法を検討して、本年度比較対象とした異なる定型表現拡張手法に対する効果を比較する。 (3) 定型表現の機能カテゴリの予測では、文中の手がかり表現や文脈に基づき、与えられた定型表現と機能カテゴリが同じ他の定型表現候補を検索する手法の検討に着手する。この際に、(1)で作成したデータセットを用いて有効性を評価する。定型表現の類似検索が可能になれば、バリエーション豊かな候補の提示が可能になるとともに、機械翻訳した上でドメインに適応した表現を検索したり、部分的な言い回しから適切な表現を検索したりするなど、多様な検索機能の実現が可能になる。
|
Research Products
(3 results)