2019 Fiscal Year Annual Research Report
Natural Language Processing Technologies for Formulaic Expressions
Project/Area Number |
18H03297
|
Research Institution | National Institute of Informatics |
Principal Investigator |
相澤 彰子 国立情報学研究所, コンテンツ科学研究系, 教授 (90222447)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 定型表現 / 執筆支援 / ドメイン・コーパス / 辞書自動構築 / 意味表現 |
Outline of Annual Research Achievements |
英語による文書作成を支援するための定型表現集が数多く出版されているが、その大半は電子化されておらず、電子化されていたとしても執筆途中に必ずしも気軽に利用できるものではない。本課題では、この問題を解決するため、ユーザのあいまいな入力に基づき適切な定型表現を提示する手法の開発に取り組んでいる。具体的には、大量の論文コーパスを計算機で解析して、談話構造などに対応づけられた豊富な文脈情報を獲得することで、定型表現の予測や検索精度の向上に結びつける手法の確立を目指している。
2018年度では、英語の非母語話者による論文執筆支援システムを新たに提案して、その成果を国際会議で発表した。また、 関連する自然言語処理の要素技術について、基礎的な検討に取り組んだ。2019年度では、定型表現の意味をそれらが論文中で担う機能と結び付けるための手法の検討を進め、分析および評価のための定型表現アノテーション付きコーパスの構築に取り組んだ。また、関連する自然言語処理の要素技術として、自然言語文の骨格を抽出する文圧縮手法、文どうしのつながりの解析、自然言語データセットのアノテーション・分析手法について、基礎的な検討に取り組んだ。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
定型表現アノテーション付きコーパスの構築について、これまでの定型表現の表現形式には統一的な基準がなく、辞書によってバラバラであることが問題であった。そこで2018年度では、既存の定型表現集であるAcademic Phrasebank を人手でアノテーションして、計算機可読な定型表現の参照データセットを構築した。2019年度では、対象ドメインとして自然言語処理分野に焦点をあてて、当該分野の網羅的な論文アーカイブであるACL Anthologyから定型表現を含む文を抽出した。これによって、既存の定型表現集に登録された定型表現のテンプレートを、指定されたドメインのコーパス中での用例と対応づけてデータベース化する手法が確立できた。
定型表現検索の評価用データセットを用いた検索手法の比較分析について、これまで定型表現の検索を自動的に評価するためのデータセットの構築が存在しないことが、検索手法の比較や課題の分析を困難にしていた。2019年度では、(1)で構築したアノテーション付きコーパスを用いた評価指標の検討に着手して、予備的実験を行った。これによって、深層学習を用いて獲得された埋め込み表現等、最先端の手法の有効性を人間の判定結果と比較・分析することが可能になった。
定型表現抽出手法について、2018年度では、コーパス中の文の各単語に対して、定型表現の一部であるかそうでないかのラベルを付与する逐次ラベリング問題として定式化し、機械学習を適用する手法を提案した。しかしながら、定型表現の正解データの作成は困難を伴うことが判明したこと。2019年度で作成した定型表現検索用のデータセットを活用することで、定型表現抽出についても自動的な評価の見通しが得られ、抽出手法の分析や改善に向けた準備が整った。
|
Strategy for Future Research Activity |
次年度は、定型表現集の活用支援技術の確立に向けて前年度に比引き続き以下の課題に取り組む。まず、(1)対象ドメインの論文コーパスを対象に、定型表現の機能的な意味をコーパス中の用例と対応づけた定型表現アノテーション付きコーパスを構築する。具体的には、これまでの成果をとりまとめ、データセットの公開と論文発表を行う。また、(2)機能的な意味に基づく定型表現検索の評価用データセットを構築し、検索手法の比較検証を行う。具体的には、これまでに構築したデータセット上で、人間のアノテーターによる参照性能、事前学習された埋め込み表現に基づくベースライン性能、および埋め込み表現に加えて定型表現がオラクルとして与えられる場合の性能等を比較・分析する。さらに、(3)定型表現の抽出手法に関する研究に取り組み、本研究で構築した評価用データセットを用いて提案手法の有効性を検証する。具体的には、埋め込み表現と文法的知識を活用した新たな定型表現の抽出法の開発および評価に取り組む。
|
Research Products
(4 results)