2013 Fiscal Year Annual Research Report
大規模・異種の時空間データ統合で生じる矛盾を許容するサイエンスクラウド基盤
Project/Area Number |
24240015
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
小島 功 独立行政法人産業技術総合研究所, 情報技術研究部門, 総括研究主幹 (00356982)
|
Co-Investigator(Kenkyū-buntansha) |
北川 博之 筑波大学, システム情報工学研究科(系), 教授 (00204876)
的野 晃整 独立行政法人産業技術総合研究所, 情報技術研究部門, 研究員 (10443227)
油井 誠 独立行政法人産業技術総合研究所, 情報技術研究部門, 研究員 (10586712)
横山 昌平 静岡大学, 情報学研究科, 講師 (20443236)
LYNDEN Steven 独立行政法人産業技術総合研究所, 情報技術研究部門, 研究員 (30528279)
石川 博 首都大学東京, システムデザイン学部, 教授 (60326014)
天笠 俊之 筑波大学, システム情報工学研究科(系), 准教授 (70314531)
中村 章人 独立行政法人産業技術総合研究所, 情報技術研究部門, 研究員 (70357664)
岩田 健司 独立行政法人産業技術総合研究所, 情報技術研究部門, 研究員 (80549890)
川島 英之 筑波大学, システム情報工学研究科(系), 講師 (90407148)
|
Project Period (FY) |
2012-04-01 – 2015-03-31
|
Keywords | データ統合 / 問い合わせ処理 / 矛盾 / 科学データ / Linked Open Data / 画像解析 / 機械学習 / 異常値検出 |
Research Abstract |
2年目として要素研究とそれ同士の統合を並行して進め、以下の実績を得た。 1) モデル化とアーキテクチャ:矛盾に対し異種データ(実世界データとSNS等)の間に疑似相関関係を指定して扱う方法を考案し、アカデミック分野の異種データにおいて原因の発見や将来予測がある程度可能なことを確認した。来歴情報(Provenance)については脆弱性の応用を発見した。曖昧性や不確実性を有するデータ集合に対する外れ値検出手法を拡張し、トップK件の外れ値を効率的に検出する手法を提案、検証した。 2)画像解析とワークフロー・可視化:機械学習による画像解析はサブクラス化により改良し、衛星画像処理よりも高精度の判別を実現した。SNS上の地理情報に着目し、ユーザが付与した位置情報(ジオタグ)を基に知見獲得を行う方法の研究を進め、海岸が写った写真のジオタグから海岸線を検出する等、注目するポイントの自動判定等を実現した。ワークフローと可視化はLavatubeの応用を進め、動画像や衛星画像等の処理の実行状況がクライアントで可視化、中断、逐次実行できる対話性を実現した。 3)検索・解析のための基盤技術:LODに対する分散処理は、時間制限内でベストエフォートの答えを戻す手法を考案し、デモシステムを構築した。配列データに対するウィンドウ集約処理に対し、差分計算の概念を導入して高速化、計算量の効率化を実証した。不確実データを対象とした確率的頻出アイテム集合マイニングアルゴリズムの並列分散化を行うと共に,GPUに基づくソートおよびCanopyクラスタリングの手法を開発した。 4)連携:技術を統合する応用を構築した。特にLODの検索と可視化を組み合わせた放射線モニタリングの応用がLODチャレンジで受賞した。2)の機械学習で発生する特定パターンの誤判定について、Flickrの画像解析を応用することが有効であることも解明した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2年目として順調に進展していると考える。 1)のモデル化は、矛盾のモデル化における疑似相関関係に基づく手法は将来予測や原因究明に対して一定の有効性が検証でき、これは有益な結果と言える。外れ値検出のモデルも有効性が検証でき予定通りの進捗である。Provenanceの研究進捗は十分ではないが、適用分野を発見できたので今後の進捗が期待できる。 2)の画像処理は大きく進展しており、機械学習による方法も改良により精度の高い判別結果を得ることができ、大規模化と今後の改良でさらなる向上が期待される。また、これと相補的な手法である海岸線や注目点といった個別のデータに着目した解法もDEIMでの発表が複数受賞した等十分以上の成果を得たと言え、これら2つの今後の組み合わせに期待が持てるものと判断する。ワークフローは企業の利用につなげることができ、衛星データ利用に基づくデモ展示等でも好評でこれも発展が期待できる状況である。 3)基盤技術については、LODに対して時間内に必ず一定の答えを返すベストエフォート型の検索を考え、それと答えの正確さを同時に提供するというアイデアは大きな成果であり、分散したLODの検索を実用的にするために非常に重要な技術と評価する。またデモシステムも構築して国際会議で発表もできた。配列データの扱いについてはウィンドウを使った集約演算という問題領域を明確化して実証できた点は意味のある進捗と考える。GPUについても同様に予定通りの進捗と言える。当初予定していた結合演算等については十分な進捗がないが、予備実験等は重ねているので今後の進捗が期待できる。 4)連携については、特に放射線データベースを応用としてLOD化とその検索、解析、可視化という一連の流れを実現する応用を構築できた点で進捗があったと考え、これは受賞の実績からして十分なものと評価する。
|
Strategy for Future Research Activity |
基本的に要素技術の進捗は十分であるので、現在の方向性と広がりを維持しつつ最終年度での成果とりまとめや統合を進めていく予定である。そのために特に以下の点に留意して研究を推進する予定である。 1)画像解析による土地利用における連携:これは初年度に基本的な方向性が確認できたが、今年度において有益性が明確になった。従って各要素技術の改良や熟成と並行して統合的に実証を行って実証する予定である。 2)LODの検索や解析における連携:これは応用の実現として一定の成果を得たが、実用性の高い技術とすべく改良を行う必要がある。特に基盤技術の高速化研究がまだ十分取り込めていないので、これらの成果を取り込むことで実用性の高い応用サービスを提供する方針である。 3)モデル化についてはSNSと画像といったような特定のパターンを共通課題として手法の連携可能性を検討する計画である。特にSNSのデータについては、最終年度は分担者を増強することで一層の進捗をはかる予定である。 4)連携については、以上のように、「矛盾」したサイエンスデータのクラウド環境のための要素研究や統合研究は非常に多岐にわたるので、最終的な統合のイメージが見えにくいが、いくつかのトピックで確実に連携的な成果を出して行くことで全体としての統合を推進していく予定である。 これらの多様な研究成果はビッグデータの時代にとって重要なもので、特にばらつきや相反のある異種のデータを効果的に結び付けたり可視化したりすることでデータ統合を効率化する、という本研究の視点は極めて意味があると考える。ひきつづきこの立場をふまえつつ研究を推進して最終的な成果のとりまとめを行っていきたい。
|
Research Products
(35 results)