2020 Fiscal Year Research-status Report
英語の語形変化推定を利用した言語モデルによる自動文書作成ソフトウエアに関する研究
Project/Area Number |
18K00904
|
Research Institution | Kurume National College of Technology |
Principal Investigator |
小田 幹雄 久留米工業高等専門学校, 制御情報工学科, 教授 (80300648)
|
Project Period (FY) |
2018-04-01 – 2022-03-31
|
Keywords | 文法誤り訂正 / 言語モデル / 第二言語習得 |
Outline of Annual Research Achievements |
交付申請書に記載した第2の課題は、リカレントニューラルネットワークを基本としたsequence-to-sequenceモデル等を言語モデルとしても用い、構成と学習法の改良を試みることである。この課題については、第3の課題のソフトウエアの有用性に寄与することを考慮し、BEA2019やACL2020等のstate-of-the-artの文法誤り検出訂正モデルを複数評価した。評価項目には、擬似文法誤りデータ(Synthetic Corpus)の利用効果、BERTによる言語モデルの補助的利用、言語モデルのための学習データを検討した。各種既存のモデルを本年度追加購入した大容量のメモリを有するGPGPUで検証し、本研究環境で、第3の課題のソフトウエアの主要部である言語モデルと文法誤り訂正モデルが実行時間とメモリ容量の観点で実現できるかを検証した。検討結果より、sequence-to-sequenceモデルとしてTransformerを用いること、さらに、これまで検討してきたBERTを言語モデルまたは誤り検出モデルとして、Transformerと並列の補助機構として用いる構成が実現可能性があり、有用性があると判断した。 さらに、第3の課題である英文技術文書作成支援ソフトウエアの開発のための調査と基礎実験として、WEB上で動作するソフトウエアを前提として、WEBによるインターフェースとsequence-to-sequenceモデルが統合できるかを検証し、サンプルプログラムを構築した。また、上記ソフトウエアに組み込む既存の構文解析器の有用性を検証した。有用性の検証には、英文技術文書作成支援ソフトウエア実行環境における実行可能性、カスタマイズの可能性、品詞と構文結果の利用性が含まれ、いくつかのソフトウエアの候補を得て、今後の第3の課題のソフトウエア開発のための調査と準備とした。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
言語モデルに組み込む機構の1つとして、単語の基本形から語形変化(活用形)を生成する手法を検討した。動詞等の変化形は、発音に関連するとの考察から、精度を向上させるために、単語のアルファベットだけでなく、発音記号を入出力に用いることを考案した。しかしながら、アルファベットに優位性があり、CoNLL2017 Shared Taskの最良結果を超える精度を得ることができなかった。 次に、コーパスを学習することにより言語モデルを構築し、特定の品詞に対する誤り訂正能力が、日本人の技術文書作成レベルに対して、実用上十分な精度であることを確認でき、独自の英文技術文書作成支援ソフトウエアの実現性が確認できた。さらに、上記英文技術文書作成支援ソフトウエアの有用性に寄与することを考慮し、BEA2019やACL2020等のstate-of-the-artの文法誤り検出訂正モデルを複数評価した。その結果、BERTを言語モデルまたは誤り検出モデルとして、Transformerと並列の補助機構として用いる構成が実現可能性があり、有用性があると判断した。 さらに、英文技術文書作成支援ソフトウエアの開発のために、WEB上で動作するソフトウエアを前提として、WEBによるインターフェースとsequence-to-sequenceモデルが統合できることが検証できた。 最後に、第1の課題で、単語の活用形のアイデアを用いた文法誤り訂正法は、現実的ではないことが明らかになったが、このアイデアは、英文技術文書作成支援ソフトウエアの機能として、ユーザに提示できないかを検討に含めることとする。
|
Strategy for Future Research Activity |
第3の課題「提案した言語モデルによる英文技術文書作成支援ソフトウエアの開発」について、第2の課題により得られた文法誤り訂正モデル、具体的には、BERTを言語モデルまたは誤り検出モデルとして、Transformerと並列の補助機構として用いる構成を採用し、コーディングを行う予定である。 最終目的である英文技術文書作成支援ソフトウエアは、文法誤り訂正の機能だけでなく、文法誤り訂正モデルが有する言語モデルによる次単語候補の提示、または、構文解析器による単語の品詞情報の提示、構文の提示など、本ソフトウエアのユーザである第二言語習得者が英文技術文書を作成する際に有益な情報を提供できる。これらの有益な情報を生成する方法、ソフトウエアへの組み込む方法を検討する。なお、第二言語習得者にとって有益な補助情報については、上記項目以外にも広範囲に検討する。最後に、英文技術文書作成支援ソフトウエアのプロトタイプの完成後に、工学系の学生に実際使用してもらい、ソフトウエアの総合評価をする。 なお、数値計算に関する研究環境としては、本研究補助金で購入したGPU搭載の計算機により、CPUを用いる場合と比べ、7倍から10倍程度の高速化が実現できており、提案手法の評価と改善に大きく寄与している。
|
Causes of Carryover |
研究者のその他の業務が多忙となり、研究計画変更等の遅延が生じ、補助事業期間を延長した。今年度の支出予定であった旅費、謝金、その他の予算項目を次年度に支出予定である。
|