2000 Fiscal Year Annual Research Report
木構造データを対象とするデータマイニングツールの開発と応用
Project/Area Number |
11680428
|
Research Institution | Kwansei Gakuin University |
Principal Investigator |
比嘉 眞弓 関西学院大学, 文学部, 教授 (90103134)
|
Co-Investigator(Kenkyū-buntansha) |
岡田 孝 関西学院大学, 情報メディア教育センター, 教授 (00103135)
|
Keywords | 知識発見 / データマイニング / 時系列データ / グラフ構造データ / ルールの発見 / 構文解析木 / 散布図 / 多変量解析 |
Research Abstract |
文の構文木データベースからの知識発見を目的として下記の項目について研究をおこなった。 分析ツールとして命題論理レベルで柔軟なデータマイニングを可能とするカスケードモデルDISCASとDLXの開発を行った。 (1)既にEDRコーパスから構文木データを取り出すソフトをCommon Lisp言語で開発してきた。これを使って言語分析のターゲットとして設定した、英語の動詞thinkについて他動詞の使い方と自動詞の使い方に構造上の違いがみられないかの分析を行う計画を立てた。 (2)文構造を調べるためEDRコーパスに含まれる、文の係り受け関係を示すカッコ付データを用いた。さらに、目的とする単語(think)の位置を中心として、周辺の単語の位置関係を相対インデックス法で表現し、それぞれの単語を相対インデックスのアイテムとして取り出す手法を考案した。 (3)EDRコーパス(16万文例)からthinkを含む1001文例を使って、自動詞182文例、他動詞300文例を取り出した。さらに、データマイニング用に構造分析するために相対インデックス法表示のアイテムを取り出した。アイテムの数は自動詞3606件 他動詞6607件であった。 (4)(3)のデータを使って最初に、IBMのデータマイニングソフトIntelligent Minerの相関ルール探索法による分析を試みた。これによって、自動詞の特徴的構造パターン9例、他動詞の特徴的構造パターン5例を発見した。 (5)相関ルール探索法の検証と本研究で作成したカスケードモデルによる分析法DISCASをつかって同じデータを使って分析を行った。同様な結果が得られ、DISCASの検証も同時に行うことができた。分析の中間データの整理にはJMPを用いた。 (6)論文を作成と発表を行った。 (7)構造を持つコーパス以外のデータにも適用した。 (8)コーパスデータについては意味構造についての分析に今後は発展させたい。
|
-
[Publications] 雄山真弓,岡田孝,黒崎茂樹(比嘉): "相対インデックス法を使った文構造分析"第5回公開シンポジウム「人文科学とデータベース」,. V. 59-66 (1999)
-
[Publications] 雄山真弓,岡田孝,黒崎茂樹(比嘉): "相対インデックス法による文構造分析法の開発と結果"電子情報通信学会 信学技報. NLC2000-19. 17-24 (2000)
-
[Publications] Takashi Okada & Mayumi Oyama :(Higa): "'Discovery of Characteristic Subgraph Patterns using Relative Indexing and the Cascade Model'"Principles of Data Mining and Knowledge Discovery PKDD 2000. LNAI 1910. 550-557 (2000)
-
[Publications] Takashi Okada: "'SAR Discovery on the Mutagenicity of Aromatic Nitro Compounds Studied by the Cascade Model'"Proc.Int.Workshop KDD Challenge on Real-world Data, PAKDD-2000. 47-53 (2000)
-
[Publications] 岡田孝:: "カスケードモデルとルール導出システムDISCAS"関西学院大学情報科学研究,Vol.15,. Vol.15(出版予定). (2001)
-
[Publications] Takashi Okada:: "Efficient Detection of Local Interactions in the Cascade Model"Knowledge Discovery and Data Mining PAKDD-2000,. LNAI 1805. 193-203 (2000)
-
[Publications] 雄山真弓(比嘉): "構文解析木を対象とするデータマイニング「人文学と情報処理」数理分析最前線"勉誠出版. 102 (1999)