Cloudovou službu Cloud Dataprep představila společnost Google. Novinka má pomoci s přípravou dat pro analytické aplikace a strojové učení. Služba v podkladech automaticky detekuje závislosti, datové typy, vzorce, anomálie nebo duplicity. Následně uživateli pomáhá se stanovením pravidel a dalším zpracováním.
Nástroj Cloud Dataprep, aktuálně provozovaný jako tzv. privátní betaverze, připravuje data pro analýzy a aplikace strojového učení, které sám využívá pro průběžné zdokonalování svých detekčních schopností a návrhů pravidel dalšího zpracování. Po uživatelích nepožaduje žádné znalosti programování, resp. potřebu kódování, má plně vizuální rozhraní. Vypořádá se se strukturovanými i nestrukturovanými daty různých formátů a v megabajtových až terabajtových objemech.
Pravidla zpracování či přípravy dat lze následně exportovat ve formátu Apache Streams. Nástroj Cloud Dataprep v podstatě představuje nadstavbu služby Cloud Dataflow. Jejím prostřednictvím probíhá i následná úprava dat uložených v prostředí Google Cloud Storage, BigQuery nebo v desktopu. Služba spolupracuje s většinou nástrojů ekosystému Google Cloud Platform. Připravené datové sady lze exportovat do nástrojů typu BigQuery pro další analyzování.
Ceny služby Cloud Dataprep zatím nebyly stanoveny. Uživatelé, kteří participují na privátním betaprovozu, prozatím platí pouze spotřebu zdrojů v produktech Cloud Dataflow, BigQuery a Cloud Storage.