最終年度に実施した研究は,交付申請書に記載した第3の課題である「言語モデルによる英文技術文書作成支援ソフトウエアの開発」である.言語モデルとして,種々の言語モデルを比較し,十分な能力を有するBERTを採用し,Association for Computational Linguisticsの論文誌33誌の論文のコーパス(通常)を作成した.また,BERTの双方向アテンションの欠点を補い,言語モデルとしての機能を高めるために,文の先頭から任意の単語までの部分文を追加したコーパス(部分文章)も作成した. これらのコーパスを学習し,英文技術文書作成支援ソフトウエアの開発とした.このシステムは,作文の先頭から数単語入力すると,引き続きの文を提案する言語モデルシステムである.コーパス(通常)とコーパス(部分文章)による言語生成能力比較結果について,パープレキシティは,コーパス(通常)のほうが小さかったが,具体的生成文で,より発生頻度が大きい数字などを生成しやすいなどの欠点もあった. 研究期間全体を通じた研究の成果として,工学系の学生に求められる技術論文の作成を支援するために,Webベースの支援ソフトウエアを開発した.語形変化と品詞情報の利用を検討したが,能力の向上は見られないことがわかった.特定分野の技術論文作成支援として,自然言語処理に関する論文,文数1.36M(データ量143MB)及び人工データを追加した文数22.3M(データ量1.49GB)のコーパスを作成し,これにより言語モデルを構築して,英文作成支援の目的を果たすシステムの開発ができた.本システムは,工学系の学生が技術文書を作成するときにが有益に利用できると考える.また,本システムは,新しい機能を今後も追加して,英語能力が初級の学生に対する高機能な支援に発展させることができると考える.
|