2019 Fiscal Year Research-status Report
英語の語形変化推定を利用した言語モデルによる自動文書作成ソフトウエアに関する研究
Project/Area Number |
18K00904
|
Research Institution | Kurume National College of Technology |
Principal Investigator |
小田 幹雄 久留米工業高等専門学校, 制御情報工学科, 教授 (80300648)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 言語モデル / 文法誤り訂正 / 英文 |
Outline of Annual Research Achievements |
交付申請書に記載した本研究の第1の課題は、単語の基本形と品詞等の分散表現を学習し,単語の基本形からなる言語モデルを構築することであった。POS Taggerを用いてBritish National Corpusを単語の基本形と品詞の組にし、sequence-to-sequcentモデルにより,学習して言語モデルを構築した。British National Corpusを直接学習した言語モデルと提案の本言語モデルについて、次単語の推定能力を比較すると,British National Corpusを直接学習した言語モデルのほうが能力が高いことが数値実験でわかった。したがって、以後構築する言語モデルに単語の基本形は採用しないこととした。 本研究の第2の課題は、単語の基本形から語形変化形を生成する機構を言語モデルに組み入れることであったが、単語の基本形と品詞情報を言語モデルに組み入れることは、上述の実験結果より方針を変更し、単語の変化形を含むWikipediaのコーパスを用いて、sequence-to-sequenceモデルを学習した。sequence-to-sequenceモデルとして、Bidirectional Encoder Representations from Transformers (BERT)を用いた。ここで、言語モデルによる英文技術文書作成支援ソフトウエアの開発が本研究の最終目標であるため、日本人がよく間違う前置詞を推定するために、BERTの事後学習として、L2学習者の文法誤りコーパス(BEA2019)を用いた。前置詞の誤り訂正を分類問題として推定するために、頻出の前置詞をグループ化し、BERTの入出力を多段に接続した推論モデルを検討した。なお、本課題については、前置詞だけの誤り訂正ではなく、他の品詞を含めた統合的な誤り訂正システムを今後検討する必要がある。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
コーパスを学習することにより言語モデルを構築し、特定の品詞に対する誤り訂正能力が、日本人の技術文書作成レベルに対して、実用上十分な精度であることを確認できた。英文技術文書作成支援ソフトウエアの開発に必要な要素技術を実現できることが計算機実験などで示されている。
|
Strategy for Future Research Activity |
本研究の後半の目的を達成するために、引き続き、第2の課題である文法誤り訂正モデルの構築を検討する。現在、分類問題としてBERTを利用しているが、前置詞の他、冠詞、助動詞など分類問題として扱える有限個の解集合を定義し、引き続き、分類問題として単語推定モデルの構築を検討する。また、動詞は候補が非常に多いことから、分類問題として設定できないため、動詞の時制推定などに解候補を限定し、分類問題への適用を検討する。さらに、分類問題として推定できない文法誤りも存在するため、TransformersなどのEncoder-Decoderモデルによる推定方法も検討する。 第3の課題「提案した言語モデルによる英文技術文書作成支援ソフトウエアの開発」については、第1と第2の課題により得られた言語モデルを用いて開発する予定である。開発する英文技術文書作成支援ソフトウエアは、単に推定単語の表示のみならず、有益な文法情報を提供することも検討課題に含める。 数値計算に関する研究環境としては、本研究補助金で購入したGPU搭載の計算機により、CPUを用いる場合と比べ、7倍から10倍程度の高速化が実現できており、提案手法の評価と改善に大きく寄与している。
|
Causes of Carryover |
物品費として、GPGPUの追加構成部品の調達を予定していたが、メモリの容量を含め検討すべき事項があり未調達となった。来年度の調達を計画する。旅費として、国際会議等の参加費・旅費があったが、コロナウイルスの影響と国内の国際会議に参加したため、予定より減額になった。次年度に複数回の会議出席を計画する。人件費・謝金として、データ整理作業を予定していたが、データ整理を研究者自身で行ったため、未実施となった。次年度のアプリケーション開発に人件費・謝金の使用を計画している。
|
Research Products
(1 results)