最終年度はSequenceBDDを用いて、同一の穴あきパターン構造を共有する文章群から、そのパターンを抽出することができないかを集中的に模索した。穴あきパターンを得ることは、文章中の意味まとまりの切れ目を得て、また、穴あき部分に該当する語群を同一範疇として抽出することに相当する。 ある系列集合を表現するオートマトンには複数考えられるが、中でもSequenceBDDは冗長な構造を可能な限り縮退させて表現することができる。ある系列集合を表現するオートマトンの中で、可能な限り小さなオートマトンを最小オートマトン(minimal automaton)という。SequenceBDDは最小オートマトンと等価なデータ構造で、しかも最小オートマトンよりもさらに小さな表現を実装可能である。文集合が与えられた時に、SequenceBDDを作成し、その中の頻度の高い構造部分をパターンとして抽出するプロトタイプを作成した。 この構造部分がパターンとなっているかどうかの性能を調べた。実験は大規模なものを2種類行った。第一は、既存研究に沿って格フレームを抽出する問題、第二は、ワイルドカードを持つパターンを形成する英語動詞をOxford辞書から900以上集め、そのパターンを抽出する問題である。その結果、高い精度でパターンを正しく取り出せることが判明した。本手法は、教師無し手法であるにもかかわらず、その精度は、教師有り機械学習手法を利用して構築されている構文解析器を用いる場合に劣らない。一方で、パターンを抽出するには、大量の文例が必要となる課題もあることがわかった。検索の用語でいうならば、Precisionは高いが、Recallは低い手法となっている。研究期間中に間に合わなかったが、世界第一線の国際会議に現在投稿中で、採録の場合夏に発表予定である。また2016年4月現在、特許申請を準備している。
|