研究概要 |
本研究は,文のデータ解析に知識発見法を利用するが、研究の進め方は以下のように分類できる。 (1)作家・作品毎の文データに含まれる計量データを表形式のデータとして探索的なデータ解析法を行う。 (2)構文木を解析対象として(2-1)構文木データを数値パラメータ化し,通常の属性/属性値対からなる表式データに変換し(1)の方法で解析する,(2-2)ID3法を拡張して,構文木の構造を直接扱う新しい分析法を開発する。 平成8年度の研究計画の策定においては,(1)と(2-2)を中心としてシステムの開発と応用を行った。 1.上記(1)の作家の文体研究に関しては,金氏らにより収集された表形式データに対する解析を,本年度も継続して推進し、作家の文体上の特徴を発見する方法を知識発見法Datalogic/Rを用いておこなった。 2.解析結果の解釈で必要な視覚化作業を支援する,知識発見サポートシステムDLXの開発も継続して行った。 3.得られた結果は,通常の多変量解析によるものと比較して非常に理解しやすいものであり,今後の文体研究に多く使われていくと考えられる。これらの成果は論文として発表した。 4.(2-2)の解析木の構造を直接扱い分析を行う新しい方法論を確立し、アルゴリズムの作成、システムの開発をおこなった。昨年度段階の方法論では,構文木のトポロジー的な属性のみを対象としたが、本年度は解析木中の各節点に多くの属性が付随していることに着目し、これらの属性を統一的に取り扱うためにviewpointと周辺の連結された節点の集合field-of-viewを定義し,その内部の属性すべてを拡張されたID3法で分析するシステムの開発を行った。 5.4.に述べたシステムを国語学の研究課題として長い歴史を持つ「が」と「は」の用法に適用し知識発見を行った。また利用すべきデータについては,最近市販されたEDRコーパスのその構文情報を用いた。 6.5.で得られた結果は、助詞「が」、「は」に関する既知の文法的制約をいくつか発見できたばかりではなく、これら助詞の使用法に関する統計的な性質に対して多くの知見を得ることができた。 7.以上で述べた(2-2)の方向での研究成果のまとめは,本重点領域研究の数量的分析班主催の公開シンポジウム「人文科学と数量的分析」で報告した。
|