与えられた文書に対して、目的に応じて文書内の単語単位を同定し、その範疇を定める処理は言語処理の要素技術である。たとえば、形態素解析の他、文書内の異言語部分を同定する処理などがある。本研究では、境界・範疇を同定する教師無し手法を考案する。三つの成果が得られた。第一に、文書内に埋め込まれた異言語部分を圧縮を用いて判定する方法を考案し、実用レベルにあることを示した。第二に、編集距離をBayes手法により拡張し、同じ意味を表す部分に対訳corpusを切り分ける方法を工夫した。第三に、最小オートマトンを用いて文のパターンを解析する手法を考案し、単位の切れ目と範疇を同定するための大規模な検証を行った。
|