1996 Fiscal Year Annual Research Report
Project/Area Number |
07680444
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Kwansei Gakuin University |
Principal Investigator |
雄山 真弓 関西学院大学, 情報処理研究センター, 教授 (90103134)
|
Co-Investigator(Kenkyū-buntansha) |
岡田 孝 関西学院大学, 情報処理研究センター, 教授 (00103135)
|
Keywords | 知識発見 / データマイニング / 時系列データ / グラフ構造データ / ルールの発見 / 構文解析木 / 散布図 / 多変量解析 |
Research Abstract |
本研究は,データ解析に知識発見法を利用するが、研究の進め方は以下のように分類できる。 (1)テーブル形式データを対象とする市販の知識発見用ソフトDatalogic/RおよびIDISを使って、これまでの統計的手法では発見しにくかったデータに含まれるルールの発見を目指した探索的なデータ解析法を行う。 (2)構造を持つデータ、例えば時系列データや、構文木などを対象とする分析法を開発する。構造を持つデータを分析するには(2-1)構造自体を種々の観点から数値パラメータ化し,通常の属性/属性値対からなる表式データに変換し(1)の方法で解析する方法,(2-2)知識発見法の分類法であるID3法を拡張して,構造を直接取り扱う新しい分析法を開発する。 平成8年度の研究計画の策定においては,(1)と(2-2)を中心としてシステムの開発と応用を行った。 1.上記(1)の作家の文体研究に関しては,金氏らにより収集された表形式データを判別分析などの手法で作家の文体上の違いが報告されてきたが、本研究では知識発見法Datalogic/Rを用いて行い作家の文体上の特徴を具体的に発見することができた。 2.(1)の解析結果の解釈で必要な視覚化作業を支援するための,知識発見サポートシステムDLXの開発も継続して行った。 3.得られた結果は,通常の多変量解析によるものと比較して非常に理解しやすいものであり,今後の文体研究に多く使われていくと考えられる。これらの成果は論文として発表した。 4.(2-2)の構造を持つデータについては構文解析木の構造を直接扱い分析できる新しい方法論を確立し、アルゴリズムを作成し、システムの開発をWindows上でC++を用いておこなった。昨年度段階の方法論では,構文木のトポロジー的な属性のみを対象としたが、本年度は解析木中の各節点には,多くの属性が付随していることに着目し、これらの属性を統一的に取り扱うために,viewpoint周辺の連結された節点の集合field-of-viewを定義しその内部属性を拡張されたID3法で分析するシステムを開発した。 5.4.に述べたシステムを国語学の研究課題として長い歴史を持つ「が」と「は」の用法に適用し知識発見を行った。またデータについては,最近市販されたEDRコーパスから1000文例の構文情報を利用した。得られた結果は、助詞「が」、「は」に関する既知の文法的制約の発見と、これら助詞の使用法に関する統計的な性質に対して多くの知見を得ることができた。 6.時系列データの予測問題を扱うため、過去の時系列データの構造パターンデータから、これに続くパターンのを予測する研究を知識発見法Dtalogic/Rを拡張することによって行った。
|
-
[Publications] 雄山真弓: "知識発見法を用いた読点データからの作家の特徴抽出" 関西学院大学情報科学研究. 11号. 53-61 (1996)
-
[Publications] 岡田孝: "知識発見サポートシステムDLX" 関西学院大学情報科学研究. 11号. 23-35 (1996)
-
[Publications] 雄山真弓: "知識発見法による探索的データ解析" 日本計算機統計学会誌.