本年度はまず、Web日本語Nグラムや日本語WordNet、日本語語彙大系などの言語資源を有効に活用する基礎的な研究およびシステム構築を行なった。その上で次のような2つの成果が得られた。 まず、複数の言語資源を用いた非タスク指向型対話システムの構築である。提案システムでは、言語資源およびWebを用いて動的な対話文生成を行うことが可能となっている。ユーザの入力した対話文に対して形態素解析を行った後、Web検索によりWebページ収集を行う。その後、収集したWebページからユーザの入力文に対する話題語候補を抽出する。続いて、抽出された話題語候補に基づき、対話文生成方法を決定する。Web日本語Nグラムを使用する場合は、抽出した単語を基点にNグラムを検索し、その単語を含む文字列を再帰的に繋げることで対話文を生成する。ここで、検索された文字列における各単語と、話題語との関連性・結び付きの度合いを複数の言語資源を用いて選定・スコアリングすることで話題語に繋げる文字列を選択する。これにより、文生成の際の計算コストを軽減しつつ、ある程度自然な文生成が可能となった。 第二が、自然言語の文書から知識を学習し、想起と推論を行う言語処理ニューラルネットワークの構築である。提案システムでは、自然言語の文が入力されると、まず前処理として文の知識への分解と単語の深層格推定が行われる。この前処理に基づき、文層、知識層、10種の深層格層、辞書層から成るネットワークが作成される。深層格層の導入により、複雑な文章の扱いが可能となった。辞書層では日本語語彙大系を用いて単語が属している概念が検索される。辞書層は、検索された概念が格納されることで、脳の長記憶部の役割を果たす。学習文と関連した質問への応答実験により、提案システムが自然言語の文書から知識を学習し、想起と推論が可能なことを確認した。
|