2016 Fiscal Year Research-status Report
Project/Area Number |
16K00165
|
Research Institution | Tokyo Metropolitan College of Industrial Technology |
Principal Investigator |
小早川 倫広 東京都立産業技術高等専門学校, ものづくり工学科, 准教授 (00334582)
|
Project Period (FY) |
2016-10-21 – 2019-03-31
|
Keywords | クラスタリング / 相互隣接グラフ |
Outline of Annual Research Achievements |
本研究課題の目的は,データ間の類似性の尺度として距離および類似度用い,問い合わせデータに対する検索順位に基づいたクラスタリング手法を提案することである.クラスタリングアルゴリズムの主なアイデアは,各データを母点し,それぞれのデータが母点からどれだけ近いかを順位付けし,その順位のみを用いてクラスタリングを実行するというものである。平成28年度では.1)クラスタリングアルゴリズムの実装と初期評価,2)評価実験に必要なデータの収集を行った。 クラスタリングアルゴリズムは,手順1)すべてのデータ間の類似度を算出し,検索順位を求める.手順2)上位の検索順位により接続行列を算出する.手順3)接続行列から相互接続を抽出し,それを相互接続行列として表現する.手順4)相互接続行列からクリーク抽出する.手順5)集出したクリークを1つのクラスタとして,併合し新たなデータとしてする.手順6)併合したデータと併合されなかったデータに対して,先の手順1から手順5を実行する.とし,実装を行った.ただし,実装のデバッグに用いたデータとしては,10クラス 100件程度の非常に小さいサイズのデータ集合である. 評価実験に必要なデータとして,記事データに着目し,5カ国のニュース記事(各国 200件) 計1,000件を収集し,データクリーニングを実施した.しかし,予備実験により収集したデータは,クラスタ生成が難しいことが分かった.現在,データの再収集の検討を行っている.
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
予備実験として,1)ニュース記事データから特徴量を算出,2)算出した特徴量群に対して多変量尺度法を適用し特徴量ベクトル空間を生成,3)既存クラスタリングアルゴリズムを適用することで収集したデータの性質を観察したところ,収集したデータはクラスタ生成がしづらいことが分かった.そこで,アルゴリズムの評価実験の適用を中止し,データの再収集の検討を行った.
|
Strategy for Future Research Activity |
自然言語処理を専門とする研究者にテキストデータ処理に関するアドバイスを頂く.このことにより早期にデータ収集を実施し,収集したデータを用いた評価実験を実施可能であると考えている.また,論文作成のため,クラスタリング分野の現状調査を実施し,論文投稿を実施する.
|
Causes of Carryover |
年度当初に採録された課題ではなく,研究費配当が遅く,当該年度での費用が困難であった.
|
Expenditure Plan for Carryover Budget |
本年度購入予定の消耗品を次年度購入するとともに,謝金を用いいてデータ収集を実施する.
|