2012 Fiscal Year Annual Research Report
大規模・異種の時空間データ統合で生じる矛盾を許容するサイエンスクラウド基盤
Project/Area Number |
24240015
|
Research Category |
Grant-in-Aid for Scientific Research (A)
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
小島 功 独立行政法人産業技術総合研究所, 情報技術研究部門, 研究グループ長 (00356982)
|
Co-Investigator(Kenkyū-buntansha) |
北川 博之 筑波大学, システム情報工学研究科(系), 教授 (00204876)
的野 晃整 独立行政法人産業技術総合研究所, 情報技術研究部門, 研究員 (10443227)
油井 誠 独立行政法人産業技術総合研究所, 情報技術研究部門, 研究員 (10586712)
横山 昌平 静岡大学, 情報学部, 講師 (20443236)
石川 博 静岡大学, 情報学部, 教授 (60326014)
天笠 俊之 筑波大学, システム情報工学研究科(系), 准教授 (70314531)
中村 章人 独立行政法人産業技術総合研究所, 情報技術研究部門, 研究員 (70357664)
岩田 健司 独立行政法人産業技術総合研究所, 情報技術研究部門, 研究員 (80549890)
川島 英之 筑波大学, システム情報工学研究科(系), 講師 (90407148)
LYNDEN Steven 独立行政法人産業技術総合研究所, 情報技術研究部門, 研究員 (30528279)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | データ統合 / 問い合わせ処理 / 矛盾 / Provenance / Linked Data / 画像解析 / 異常検出 / 機械学習 |
Research Abstract |
本年度は初年度として、矛盾を扱うための要素技術として 1)統合のモデル化とアーキテクチャ、2)時空間データの解析とワークフロー、3)検索と解析のための並列処理基盤の3点を中心として研究開発を行い、以下のような実績を得た。 1) モデル化:新たな問題であるので周辺研究の調査/評価を行い、メタデータに基づくProvenance(来歴情報)に基づくモデル化の有効性を確認した。応用としてホットスポット解析や土地利用検出などの画像処理を中心として矛盾の事例を共通的に扱うこととし、次年度以降の技術連携の基礎とした。曖昧性や不確実性のあるデータ集合に対し距離に基づく外れ値の検出手法を提案し、有効性を検証した。 2) 解析:1)に従い要素研究を進めた。火事などのホットスポット解析についてはGEO Gridの熱赤外線画像を用いた温度に基づく効率的な検出手法を提案し、有効性を確認した。また、不確実性のあるデータに対するGPUを用いた高速化処理を提案し、これも実験で有効性を検証した。土地利用検出としては写真画像の機械学習による自動分類の手法を構築し、分類における研究課題を発見した。また同じく写真画像に対し、撮影方向を意識して対象の検知を高精度化する方法を提案、有効性を示した。解析の手順を容易にワークフロー化できるツール(lavatube2)を研究開発し、実際に画像の差分検知に用いて有効性を検証した。 3)並列処理:分散環境におけるメタデータ(Linked Data)の分散問い合わせの効率化手法を提案した。またこれら検索結果をOLAP的に解析するためのフレームワークを研究開発した。結合などメタデータの処理の効率化をダイジェストデータを使って効率化する方法の研究開発に着手した。解析のための機械学習のフレームワークをHadoop上に構築しVowpal Wabbit等との比較検証を行って有効性を示した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度として要素研究を中心に研究開発を行い、それぞれの進捗には大きな成果が上がったものや予定通りでないものなどがあるが、全体としては順調に進展していると考えている。 1)のモデル化は進捗が十分でないが、Provenanceの可能性を検証できた点は大きく、翌年以降の発展が期待できる。また不確実性のデータに対する外れ値検出は予想以上の進捗である。 2)の解析については全体的に大きく進展したところであり、全体としての成果は予定以上のものがある。ホットスポット解析や土地利用解析は計画通りの進捗であり、GPUによる画像処理や、撮影方向を用いた対象物の検出は計画以上の成果を得ている。ワークフローシステムを用いた差分検出のプロトタイプはプレス発表やデモ展示を行って様々な反響を得ている。 3)の並列処理についても同様で、Linked Dataについての研究進展は当初想定以上の広がりが出ている。空間データなど結合処理の効率化については予定した成果が得られていないが、この過程で格納構造を効率化する方法が得られ発表している。また機械学習のフレームワークについても地球観測応用には適用できていないが、広告測定などビジネス応用についてはその有効性を確認できており、要素技術研究として十分な結果を得ていると判断している。またメタデータ検索の標準仕様もまとめることができた。 研究の進捗体制:十分な体制で遂行できたと考える。遠隔地を含むためにテレビ会議に基づくものを定例化し、今年度は9回(定例8回+講演会1回)の会合を行って進捗の確認や研究成果を議論するなど十分な体制の元で進めた。内部向けデータ共有サイトやMLなどど情報の共有にも務めた。
|
Strategy for Future Research Activity |
次年度は要素研究の推進とともに各要素研究の融合や連携のための議論を進めることとしている。特に、以下の2点において研究の連携の可能性がはっきりしてきたので、これらの研究開発を推進めることとする。 1)写真画像解析による土地利用検出:産総研の機械学習による画像のクラスタリングと、静岡大の特定タグや特定の特徴量(撮影方向など)に着目した画像解析は相補的であるので、個々の要素研究の進展とあわせ、組み合わせによる効率の向上が望めるか研究・検証する。 2)Linked Dataの管理検索基盤:産総研における分散Linked Data検索や空間結合データ処理と、筑波大におけるLinked Dataの解析のためのOLAPフレームワークは大規模なメタデータから知見を求めるために有効な技術であるので、組み合わせて新たな成果が得られる可能性があり、これも研究をすすめる。 衛星データやセンサなど膨大なデータ(ビッグ・データ)を扱う環境において、本テーマで扱うデータの相反やズレといった「矛盾」が膨大に発生することは常態化すると考えられる。ここで正確なデータや精密な校正を行って一貫性のあるデータ集合を作ることはビッグデータの環境において現実的でなく、いかにこのような「矛盾」を許容しつつ高速かつ簡便に意味のあるデータ統合を行うかが重要である。本テーマのこの主張はこれから重要性が増す一方と認識しており、この立場をふまえつつ研究を推進していく予定である。
|
Research Products
(25 results)