超大規模データからの高速データマイニング・システムの研究

研究課題

研究課題/領域番号	09230215
研究種目	重点領域研究
配分区分	補助金
研究機関	九州大学
研究代表者	有村博紀九州大学, 大学院・システム情報科学研究科, 助教授 (20222763)
研究分担者	正代隆義九州大学, 大学院・システム情報科学研究科, 助教授 (50226304) 有川節夫九州大学, 大学院・システム情報科学研究科, 教授 (40037221)
研究期間 (年度)	1997
研究課題ステータス	完了 (1997年度)
配分額 *注記	1,900千円 (直接経費: 1,900千円) 1997年度: 1,900千円 (直接経費: 1,900千円)
キーワード	データマイニング / テキストデータマイニング / テキストデータベース / パターン言語 / 論理プログラム / 機械学習 / データベースからの知識獲得 / KDD
研究概要	データマイニング(Data Mining)は,データベースからの知識発見とも呼ばれ,現在,ビジネス分野や科学技術分野等,さまざまな対象領域で,その適用が盛んにおこなわれている.しかし,現在のデータマイニングの対象は関係データベースが中心であり,現在急速に利用が進みつつあるテキストデータベースやオブジェクト指向データベースに関しては,明示的な構造をもたない,あるいは非均質な構造しかもたない,膨大なデータの集積であるなどの理由から,従来の手法をそのまま適用することができないため,ほとんど研究がおこなわれていない. そこで本研究では,ここにあげたような非構造的データや構造データからのデータマイニングについて研究した.平成9年度は,具体的にはつぎの問題に中心に研究した. 1.高速パターン発見アルゴリズムの研究:近年発展著しいテキストデータベースを対象に,高速なパターン発見アルゴリズムを開発した.とくに,単純なパタンに仮説を制限する代わりに,誤差や欠落を含む不完全データにたいしても働くような,頑健かつ高速な手法を開発することができた.また,確率的サンプリングを用いた高速化や効率的な探索の枝刈り法についても成果を得た. 2.属性効率のよいパタン発見アルゴリズム:テキストデータベースにおいては,属性に対応する部分列や語彙の数は膨大になる.本項では,1変数パタンと呼ばれる単純な規則を対象に,発見に必要な具体例が,発見対象に関連しない属性数にはほとんど依存しないような,「属性効率がよい」パタン発見アルゴリズムを開発し,この族が多項式オンライン学習可能であることを示した. 3.構造化データからの対話を用いた知識獲得:本項では,構造化データからの対話的な知識獲得について基礎的な研究をおこなった.関係データベースではさまざまな演繹質問や統合性制約が一階ホーン論理式として表される.主結果として,一階ホーン論理式の部分族ACH(k)に対する多項式時間学習アルゴリズムを与え,さらに,これが質問計算量に関してほぼ最適であることを示した. 他にも,テキストデータベース用の質問言語の計算量と表現力を調べ,完全に特徴づけた.また,本年度に1項のテキストデータマイニング・システムの小規模プロトタイプを試験的に実装し,問題点の洗い出しをした.次年度は,これに基づいて効果的な実装法を研究し,分子生物学のデータを対象として大規模な知識獲得実験をおこないたい.

報告書

(1件)

1997 実績報告書

研究成果
(6件)

すべてその他

すべて文献書誌 (6件)

[文献書誌] 有村博紀,渡木厚,藤野亮一,有川節夫: "最適パタン発見に基づくテキストデータマイニング" 情報処理学会第55回全国大会. Vol.3. 6AA (1997)
- 関連する報告書
  1997 実績報告書
[文献書誌] 有村博紀,渡木厚,下蘭真一: "Maximum agreement problem for word association patterns." 電子情報通信学会、コンピュテーション研究会. (1997)
- 関連する報告書
  1997 実績報告書
[文献書誌] Hiroki Arimura他: "Learning Unions of Tree Patterns Using Queries" Theoretical Computer Science.185. 47-62 (1997)
- 関連する報告書
  1997 実績報告書
[文献書誌] Hiroki Arimura: "Learning Acyclic First-order Horn Sentences From Entailment" Lecture Notes in Computer Science. 1316. 432-445 (1997)
- 関連する報告書
  1997 実績報告書
[文献書誌] 池田大輔,有村博紀: "The computational complexity of hereditary elementary formal systems" 京都大学教解研講究録. 992. 207-214 (1997)
- 関連する報告書
  1997 実績報告書
[文献書誌] 稲子希望,有村博紀: "1変数パタン言語の多項式時間オンライン学習" 1998年冬のLAシンポジウム. (掲載予定). (1998)
- 関連する報告書
  1997 実績報告書

超大規模データからの高速データマイニング・システムの研究

研究代表者

有村 博紀 九州大学, 大学院・システム情報科学研究科, 助教授 (20222763)

1,900千円 (直接経費: 1,900千円)

報告書

研究成果

[文献書誌] 有村博紀,渡木厚,藤野亮一,有川節夫: "最適パタン発見に基づくテキストデータマイニング" 情報処理学会第55回全国大会. Vol.3. 6AA (1997)

関連する報告書

[文献書誌] 有村博紀,渡木厚,下蘭真一: "Maximum agreement problem for word association patterns." 電子情報通信学会、コンピュテーション研究会. (1997)

関連する報告書

[文献書誌] Hiroki Arimura他: "Learning Unions of Tree Patterns Using Queries" Theoretical Computer Science.185. 47-62 (1997)

関連する報告書

[文献書誌] Hiroki Arimura: "Learning Acyclic First-order Horn Sentences From Entailment" Lecture Notes in Computer Science. 1316. 432-445 (1997)

関連する報告書

[文献書誌] 池田大輔,有村博紀: "The computational complexity of hereditary elementary formal systems" 京都大学教解研講究録. 992. 207-214 (1997)

関連する報告書

[文献書誌] 稲子希望,有村博紀: "1変数パタン言語の多項式時間オンライン学習" 1998年冬のLAシンポジウム. (掲載予定). (1998)

関連する報告書

有村博紀九州大学, 大学院・システム情報科学研究科, 助教授 (20222763)