2004 Fiscal Year Annual Research Report
Project/Area Number |
16500070
|
Research Institution | Hosei University |
Principal Investigator |
三浦 孝夫 法政大学, 工学部, 教授 (00219586)
|
Co-Investigator(Kenkyū-buntansha) |
塩谷 勇 産能大学, 経営情報学部, 教授 (70170850)
|
Keywords | 不完全データの時間推定 / EMアルゴリズム / 逐次クラスタリング / データプロジェクション / ランダムプロジェクション / スキュープロジェクション / テキストストリーム / 多次元データ操作 |
Research Abstract |
本年度は研究初年度としてデータモデル確率のための基本技術の確立を目指した。データストリームをデータベースの観点から捕らえると、型やクラスという構造情報を事前に決定できないという問題がある。このため、データ自身から記述情報を生成するという知識生成手法の内在が必須である。このための動的モデル化手法として、伝統的には"分類"と"要約"があげられるが,本年度ではそのためにデータの時間推定と高性能検索の実現を果たすことを目的とした。具体的に、本研究では大きく3つの特徴を捉えた発展を行った。 (1)オンラインニュース等の時系列文書の要約や,新しい話題の検出や追跡を行う研究が盛んに行われている.しかし,それらのほとんどでは,各記事のタイムスタンプ(発行時間)が取得可能であることを前提としており,タイムスタンプが不明な記事はこれらのタスクには貢献できない.また複数のソースを扱う場合,ソース間に速報性の差による割り当ての矛盾が生じる. 本研究では,ニュース記事のタイムスタンプを少数の不完全なデータから,効果的に推定する手法を提案する.EMアルゴリズムや逐次的なクラスタリング手法を用いることにより,記事が述べている事象に基づきタイムスタンプを推定する.TDT2コーパスを用いた実験により本手法の有効性と考察を示している. (2)近年注目されているプロジェクション手法にランダムプロジェクション(RP)がある.RP手法ではランダムな要素で射影行列を構成する.そのため行列の作成が高速で,プロジェクションがデータに対して独立である.データに独立なプロジェクションは射影行列の再計算が不要で,例えばデータストリームに対しては検索効率と検索精度の両立が可能となる.しかし,そのランダム性ゆえに,特に低次元でプロジェクションの安定性が低下する問題がある.本研究では,文書データの単語分布を元に射影行列を構成するプロジェクション手法(Skewed Projection : SP)を提案している.ランダムプロジェクションによる文書検索では,特に低次元で検索の安定性が低下する.本研究では,単語の頻度分布に基づいて射影行列を構成する.このプロジェクションを用いることにより,誤差を保存しつつ,分布に特有な応用分野に属する文書集合に対して,局所的に非依存かつ効率的な文書検索が行えることを示した. (3)多次元データ構造との関連で数万次元に及ぶテキストデータにプロジェクション手法を用い、高性能な検索を行うための手法EGF(拡張可能ハッシュファイル)の提案と性能評価について実現可能性を示した。
|
Research Products
(21 results)