2020 Fiscal Year Annual Research Report
Writing Assistance System for Scholarly Papers Using Communicative Functions of Formulaic Expressions
Project/Area Number |
19J12466
|
Research Institution | The University of Tokyo |
Principal Investigator |
岩月 憲一 東京大学, 情報理工学系研究科, 特別研究員(DC2)
|
Project Period (FY) |
2019-04-25 – 2021-03-31
|
Keywords | 定型表現 / 伝達機能 / formulaic expressions / formulaic sequences / move / ムーブ / 英語論文執筆支援 / EAP |
Outline of Annual Research Achievements |
令和2年度は,まず定型表現の伝達機能を自動的に付与する手法を提案し,続いて昨年度に開発した定型表現の抽出手法を改良し,その上でこれらの手法を組み合わせ,大規模な伝達機能ラベル付き定型表現データベースを構築した。最後に,このデータベースを用い,英語論文執筆支援用の定型表現検索システムが可能であるか検討した。 伝達機能ラベルの自動付与については,当初教師なし学習による手法に取り組んでいたが,実現が困難であることが判明したため,教師あり学習を用いた手法に切り替えた。これによって,訓練用データを構築する必要が出たため,クラウドソーシングを利用してデータを構築した。このデータを用いて学習・推定を行ったところ,十分に高い正解率を得た。また,使用した深層学習モデルの事前学習データ及びファインチューニング時データの分野依存性について分析を行い,分野間の転移が可能であることが判明した。 定型表現の抽出は,固有表現抽出と依存構造解析を単語n-gram抽出と組み合わせる手法を提案し,既存の手法と比較を行い,提案手法が優れていることを示した。 以上で提案した技術を組み合わせ,コーパスに適用し,大規模な伝達機能ラベル付き定型表現データベースを構築した。このデータベースによって,分野に特化した定型表現が多く見られることが再確認された。また,この規模の定型表現データベースは前例がないものと思われる。 さらに,実用的な英語論文執筆支援システムを念頭に,多様な定型表現を伝達機能に基づいて検索する手法について検討した。結果として,伝達機能ラベルが付与されていることによって,語彙の重複に依存する必要性が低下するので,多様な定型表現を検索可能であることが示された。しかしながら,より実用的な観点に基づくと,伝達機能の体系をより細かく整備する必要があることが示唆された。これは今後の課題である。
|
Research Progress Status |
令和2年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
令和2年度が最終年度であるため、記入しない。
|
Research Products
(6 results)