2006 Fiscal Year Annual Research Report
Project/Area Number |
06F06775
|
Research Institution | Hokkaido University |
Principal Investigator |
荒木 健治 北海道大学, 大学院情報科学研究科, 教授
|
Co-Investigator(Kenkyū-buntansha) |
SJOBERGH Jonas Fredrik 北海道大学, 大学院情報科学研究科, 外国人特別研究員
|
Keywords | ユーモア / 自然言語処理 / ユーモア認識 / ユーモア自動生成 |
Research Abstract |
我々は、テキストが冗談であるかどうか判断できる機械学習システムを作成した。英語のジョーク(短い"one-liners"及びより長い"gag stories")の評価実験を行い、既存のシステムよりよい結果を得ることが確認された。まず,ある特定の言語を用いて実験を行い、そのアルゴリズムが他言語にも適用可能かどうかの調査を行った。 また,冗談を生成するシステムについての開発も行った。2つの日本語を対象としたシステムうち、一つは「謎々」、もう一つは「親父ギャグ」を生成するものである。他研究と大きく異なる点としては、深い意味論的なデータソースや分析などを使用しないことがあげられる。その代わりに、インターネットという膨大なデータから抽出したジョーク・コレクションが学習データとして用いられる。生成される冗談はまだあまり可笑しくはないが、システムが生成した冗談のおよそ半分は人間の一番つまらないレベルの冗談と同じ程度であるという実験結果が得られた。 さらに、スウェーデン語の特殊な言葉遊びを生成するシステムの開発も行った。その冗談は長いスウェーデン語の単語をいくつかの短い単語に分割することによって、スウェーデン語の母国語話者が一般的な間違い起こすプロセスをシミュレートするアルゴリズムである。新たに生成された単語を含む文が文法的であるかぎり、単語を使い分けることによって可笑しいケースが多く存在している。プログラムはスウェーデンの文を分析して、長い単語を分割し、文が文法的かどうかを自動的に調査する。文法的に正しい結果は「おかしい文」として候補に入れる。インターネット上の冗談コレクションから収集された冗談コーパスを使用するプログラムは非常に高い再現率(90%)が得られ、生成したおよそ半分のジョークが「可笑しい」と評価された.これは,かなり良い精度であると考えられる。ここで,再現率が低くてもいいのであれば、さらに高い精度が得られると考えられる。システムはスウェーデン語の新聞テキストでもテストされ、新語を利用しても半分以上の候補は「可笑しい」と評価されることについても確認された。 上記のシステムを作成するために必要となったある程度の量の言語資源の作成も行った。また,日本語についての400個の下品な言葉のリストなどの作成も行った。
|