本年度は、統計処理機能との連携を利用しつつ、専門文書からの日本語用語抽出に関わる方式の改良を実施した。 具体的には、1.用語抽出において誤りの原因となる傾向の強い形態素を統計的に同定し、これらをより誤りが少なくなると考えられる形に置き換えることにより、一定の抽出精度向上が実現できることを明かにした。2.1.の結果を精査することにより、形態素解析誤りに特定のパタンが存在することを明かにするとともに、これらの誤りを修正することによって、より一層の抽出精度向上が可能となることを明かにした。3.従来の方式では外来語に対して特別の考慮を払っていなかったが、特に理工系文書における外来語の重要性に鑑み、外来語を系統的に扱う方式を組み込むことにより、外来語の関連する用語について、抽出性能の大幅な改善が可能となることを明かにした。 用語抽出アルゴリズムに上記の諸点を組み込むことにより、用語抽出性能を大きく改善することが可能となった。
|