研究実績の概要 |
コンピュータが自然言語を理解・推論するには,与えられたテキストを計算機が蓄積している知識にグラウンディング(対応付ける)仕組みが不可欠である.今年度は,実体・概念や関係をグランディングするためのコーパスを構築し(研究項目③),そのコーパスを使った予備実験を行った(研究項目②). 実体・概念を知識ベースにグランディングするコーパスとして,BCCWJの新聞記事コーパスに含まれる固有表現をWikipedia記事に対応付けた正解データを構築した.このコーパスでは,340件の新聞記事に出現する約26,000件の実体・概念への言及の中で,対応するWikipedia記事が存在する約22,000件に対し,そのWikipedia記事IDを付与した.このコーパスを使った予備実験として,Wikipedia内リンク確率を用いた曖昧性解消器を開発したところ,約8割の正解率でグラウンディングできることを確認した.英語では同様のコーパスがすでに存在するが,日本語に対するコーパスを構築したのは本研究が初めてである.本コーパスが日本語の実体・概念の曖昧性解消器の開発に役立つのは勿論であるが,本タスクにおける言語や文化による差異の検証が深まると期待される. 関係を知識ベースにグランディングするためのコーパスとして,「increase the risk of」―「cause」など,関係パタンのペアの類似度に関するデータを作成した.このコーパスでは,5,555ペアの関係パタンに対して,人間が7段階の類似性スコアを付与した.なお,このコーパスの構築にはクラウドソーシングを活用し,比較的安価に質の高いデータを構築した.このコーパスに含まれる関係パタンは,関係パタンの意味を語の意味の合成として計算できる可能性が高いため,深層ニューラルネットワークによる意味合成モデルのベンチマークデータとしても有用である.
|