研究課題/領域番号 |
26330271
|
研究機関 | 筑波大学 |
研究代表者 |
遠藤 靖典 筑波大学, システム情報系, 教授 (10267396)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | クラスタリング / 言語ベース / モデルベース / データマイニング / ビッグデータ / ファジィ推論 |
研究実績の概要 |
クラスタリングは特に有用なデータマイニング手法として、多くの分野で用いられている。しかし既存手法は、予め想定した数理モデルに沿ってクラスタリングを行うモデルベース技法なので、柔軟さに欠け、大規模・複雑・不確定で絶えず更新されるソーシャルデータのマイニングには不適である。そこで本研究課題では、モデルベース制御とファジィ制御の対比に着想を得、「モデルベースから言語ベースへ」という観点に立脚し、ソーシャルデータに対するマイニングをターゲットとした言語ベースクラスタリング技法の開発を目的とする。さらに、従来のモデルベースクラスタリングと開発手法との数理的関連性および、開発手法で適切に処理できるソーシャルデータの類型分類を通じて、言語ベースクラスタリングの理論的発展およびソーシャルデータのマイニングへの実用化を目指す。 H27年度は申請書に従い、以下に挙げる各研究内容について番号順に実施した。1. H26年度に引き続き、クラスタリングと親和性の高い言語ベースの構造に関する検討および、知識データベースの構成を継続して行った。また、H26年度より取り組んでいる、クラスタの形状に関する知識をアルゴリズムに実装するための知識データベースの構築について検討を行った。2. H26年度に開発した言語ベースクラスタリングのプロトタイプを基に、検討した言語ベースの構造に基づいた言語ベースクラスタリング技法の開発を行った。また、特定クラスタに対応する技法のプロトタイプを開発した。3. ベンチマークデータによる開発手法の検証と、H26年度に開発したプロトタイプとの比較検討を行った。それにより、開発手法の特徴を把握することができた。4. 本年度の総括を行い、H28年度以降の全体計画を再検討した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
H27年度に予定していた研究計画の夫々について達成度の評価を、予定以上(A)、予定通り(B)、予定よりやや遅れている(C)、予定よりかなり遅れている(D)、の4段階で行う。
1. 言語ベースの構造検討・知識データベースの構成について、H26年度に引き続き、H27年度半ばまでに行う予定だった。H26年度に開発した言語ベースクラスタリングの構造について、複数の研究者と検討を行い、修正を加えた。また、楕円状および線状クラスタに対する知識の、言語ベースクラスタリングへの具体的な実装に着手した。(B)評価。 2. 言語ベースクラスタリング技法の開発について、年度末までに行う予定だった。H26年度に開発した言語ベースクラスタリングのプロトタイプに対して、前述の複数の研究者との議論を踏まえて修正を加えた手法を開発した。また、楕円状クラスタに対応する言語ベースクラスタリングのプロトタイプを開発した。(B)評価。 3. 開発手法の検証・既存手法との比較検討について、年度末までに行う予定だった。ベンチマークデータによる開発手法の検証と、プロトタイプとの比較検討を行った。それにより、開発手法の特徴を把握することができた。(A)評価。 4. 本年度のまとめと全体計画について、当初の予定にはなかったが、年度末に行った。H26年度のとりまとめを行い、H28年度の研究計画について検討を行った。予定通りに進んでいることを確認した。(B)評価。
|
今後の研究の推進方策 |
H27年度は予定通りに研究計画が進展した。H28年度は以下のように、当初の予定通り遂行していくこととする。 1. 言語ベースの観点からのクラスタリング技法の再体系化:開発した言語ベースクラスタリング技法と従来からのモデルベースクラスタリング技法との数理的関連性の考察を行い、言語ベースの観点からクラスタリング技法の再体系化を進める。もし数理的関連性が明らかになる言語ベースとモデルベースのクラスタリングアルゴリズムが存在したとき、数理的に相互変換が可能となる場合がある。その場合、相互変換可能なクラスと不可能なクラスとの類型分類を通じて、クラスタリング分野における言語ベースクラスタリングの位置付けが明確となり、言語ベースクラスタリング技法のみならずモデルベースのクラスタリング技法双方の包括的発展が望める。 2. ソーシャルデータのマイニングの実用化:実際のソーシャルデータによる検討を通じて、特にデータの規模・複雑さ・不確定性の観点から、開発手法で適切に処理できるソーシャルデータの類型分類を行う。それにより、開発手法の特徴が明らかになると同時に、ソーシャルデータのマイニング実用化を進めることができる。規模の大きいデータを扱うために、高速のデータ解析用コンピュータを購入し、H26年度に購入したコンピュータと共に計算を行う。 3. 最終的な総括・自己評価:本研究課題の最終的な包括を行う。本研究の自己評価は、3-1. 言語ベースクラスタリング技法がどこまで構築できたか、既存手法と比較した優位性はどこか、3-2. クラスタリング分野における位置付けはどこにあるか、クラスタリングの分野におけるパラダイムシフトとなりえるか、3-3. どの程度の規模のデータに適用できるか、実際のソーシャルデータへの適用は可能か、の3点から行うこととなる。
|