研究課題/領域番号 |
19J12466
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 国内 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
岩月 憲一 東京大学, 情報理工学系研究科, 特別研究員(DC2)
|
研究期間 (年度) |
2019-04-25 – 2021-03-31
|
研究課題ステータス |
完了 (2020年度)
|
配分額 *注記 |
2,100千円 (直接経費: 2,100千円)
2020年度: 1,000千円 (直接経費: 1,000千円)
2019年度: 1,100千円 (直接経費: 1,100千円)
|
キーワード | 定型表現 / 伝達機能 / formulaic expressions / formulaic sequences / move / ムーブ / 英語論文執筆支援 / EAP |
研究開始時の研究の概要 |
英語による論文執筆は,非英語母語話者には大きな負担であり,その支援は,我が国の研究スピード及びプレゼンスの向上という観点でも極めて重要である。 本研究は,英語論文において繰り返し使われる表現,「定型表現」に着目し,この定型表現を大量の論文から抽出し,適切に分類し,検索・提示する方法の確立を目指す。 そして,英語論文の執筆支援システムを構築し,広く利用に供することが本研究の最終目的である。
|
研究実績の概要 |
令和2年度は,まず定型表現の伝達機能を自動的に付与する手法を提案し,続いて昨年度に開発した定型表現の抽出手法を改良し,その上でこれらの手法を組み合わせ,大規模な伝達機能ラベル付き定型表現データベースを構築した。最後に,このデータベースを用い,英語論文執筆支援用の定型表現検索システムが可能であるか検討した。 伝達機能ラベルの自動付与については,当初教師なし学習による手法に取り組んでいたが,実現が困難であることが判明したため,教師あり学習を用いた手法に切り替えた。これによって,訓練用データを構築する必要が出たため,クラウドソーシングを利用してデータを構築した。このデータを用いて学習・推定を行ったところ,十分に高い正解率を得た。また,使用した深層学習モデルの事前学習データ及びファインチューニング時データの分野依存性について分析を行い,分野間の転移が可能であることが判明した。 定型表現の抽出は,固有表現抽出と依存構造解析を単語n-gram抽出と組み合わせる手法を提案し,既存の手法と比較を行い,提案手法が優れていることを示した。 以上で提案した技術を組み合わせ,コーパスに適用し,大規模な伝達機能ラベル付き定型表現データベースを構築した。このデータベースによって,分野に特化した定型表現が多く見られることが再確認された。また,この規模の定型表現データベースは前例がないものと思われる。 さらに,実用的な英語論文執筆支援システムを念頭に,多様な定型表現を伝達機能に基づいて検索する手法について検討した。結果として,伝達機能ラベルが付与されていることによって,語彙の重複に依存する必要性が低下するので,多様な定型表現を検索可能であることが示された。しかしながら,より実用的な観点に基づくと,伝達機能の体系をより細かく整備する必要があることが示唆された。これは今後の課題である。
|
現在までの達成度 (段落) |
令和2年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
令和2年度が最終年度であるため、記入しない。
|