データストリーム処理においては,Twitterストリームに対するリアルタイム自然言語処理システムのように,大容量のストリームデータを低レイテンシで処理することが求められるようなアプリケーションがある.しかし,例えばTwitterにおいてツイートの量が一時的に増大するような時,入力データレートがシステムの処理能力を超えてしまい処理レイテンシが増加すると,アプリケーションのサービスレベル・アグリーメントを満たせない場合がある.そのような過負荷時に入力データの一部を削除するLoad Sheddingという手法があるが,レイテンシを確保する代わりに計算精度は落ちてしまい,後に別のアプリケーションで同じ計算結果を利用したい時に問題となってしまう.我々はLoad Sheddingによって削除されるデータと不完全な計算結果の両方をストレージに保持し,システムの処理能力に余裕があるときに前者のデータを再度読み込んで処理を施し,後者の値と集約することによって計算結果を補完する処理機構を提案した
|