研究概要 |
1.大規模なコーパスからの知識獲得の手法としてブートストラップと呼ばれる方法がある。ブートストラップは少数の種となる単語からスタートし、単語にマッチするパターンをコーパスから抽出して、逆にそのパターンにマッチする単語をコーパスから獲得する。新しく獲得された単語をさらに種として用いることで、少量の単語から大規模な単語辞書を構築することができる。しかしながら、ブートストラップには、反復の途中で間違った単語を獲得してしまうと、それ以降のパターン抽出や単語獲得で望まない結果になってしまうという問題(意味ドリフト)があった。Espresso(Pantel and Penacchiotti,2006)は近年注目されているブートストラップ手法の一つで、高い精度で知識獲得が行えるという利点がある。Espressoにおいても意味ドリフトの問題が存在するが、本研究ではEspressoにおける意味ドリフトの問題がリンク解析分野でのHITS(Kleinberg,1999)というアルゴリズムにおけるトピックドリフトという問題と同じであることを示し、リンク解析の関連度尺度を適用することでブートストラップにおける意味ドリフトを防ぐことが可能であることを示した。提案手法を用いれば、コーパスから高い精度で知識獲得することができる。 2.コーパスを用いた自然言語処理が近年盛んになっているが、これまで規則ベースで行われてきたかな漢字変換においても統計的手法が適用可能であることが(森+,1999)によって示された。本研究では、Google日本語Nグラム(工藤+,2007)をコーパスとして用い、統計的手法に基づいたかな漢字変換システムを提案する。
|