研究概要 |
本研究は、これまでの統計的手法等のデータ解析では見出せなかった新しい知識発見法を適用し、構造を持つデータの解析を行うもので、研究の進め方は以下のように分類できる。 構造を持つデータ、例えば時系列データや構文木などを対象とする分析法を開発するには、以下の方法が考えられる。 (2-1)構造自体を種々の観点から数値パラメータ化し通常の属性/属性値対からなる表式データに変換し解析する。 (2-2)知識発見法の分類法であるID3法を拡張して、構造を直接取り扱う新しい分析法を開発する。 平成9年度は、(2-2)のシステムの開発とその応用をおこなった。 1.(2-2)の構造を持つデータについては構文解析木の構造を直接扱い分析できる新しい方法論を確立し、アルゴリズムを作成した。本方法は、構文解析木の中で特定の節点を指定しこれをviewpointとしてこの周辺構造のパターンを探索的求めるものである。分析の方法は、解析木の各節点のトポロジー的な属性と構文木のもつ品詞や意味構造などの属性に着目し、これらの属性を統一的に取り扱うために凶viewpoint周辺の連結された節点の集合field-of-viewを定義し、その内部構造を拡張されてID3法で分析した。 2.1.の方法でSYKDシステムの開発をWindows上でC++を用いて行った。システムは使いやすさを考慮してwindows画面で計算制御を行うことができる。 3.SYKDシステムを使って、EDR日本語データベースを解析する実験を行った。膨大なEDRコーパスデータからSYKD用にデータを引き出すためのPro-Defシステムを開発した。 4.助詞「が」と「は」の周辺構造の差異を調べるためにEDRコーパスから10,000以上の文例を抜き出してSYKDシステムを使って分析をおこなった。助詞「が」と「は」の周辺における構造的特徴や使用頻度の高いパターンや少ないパターンなどを発見できた。 5.6種類の助詞「が」「は」「と」「て」「に」「で」のそれぞれについて、7000文例以上を対象にその周辺構造を調べた。研究成果は論文と口頭で発表した。
|