Službu Cloud Dataprep zpřístupnila ve veřejném beta režimu společnost Google. Nástroj pomáhá s rychlou přípravou dat pro analýzy nebo trénování modelů strojového učení. Je plně integrován s dalšími službami Google Cloud Platform, včetně Cloud Storage nebo BigQuery.
Společnost Google představila službu Cloud Dataprep letos v březnu společně s dalšími analytickými a databázovými produkty. Nástroj zjednodušuje proces přípravy dat pro další zpracování. Automaticky detekuje schémata a vazby, typy proměnných nebo anomálie v podobě chybějících hodnot. S podporou strojového učení doporučuje různé způsoby vyčištění dat, které zvýší rychlost jejich přípravy a sníží případnou chybovost.
Na zkušební provoz se nestahují žádná SLA. Využití nástroje je bezplatné. Uživatel pracuje se vzorkem svých dat a vytváří si definici pravidel, tzv. flow, pro jejich konečné zpracování. Zpoplatněno je samotné spuštění úlohy, resp. přípravy nad původním datovým zdrojem prostřednictvím Google Cloud Dataflow.
Jedním z konkurentů služby Cloud Dataprep je i vloni představený produkt z dílny firmy Amazon. Nese název AWS Glue. Jeho hlavní součásti představují centrální úložiště metadat AWS Glue Data Catalog a engine ETL (Extract, Transform, Load).
Oba výrobci u svých řešení pro přípravu dat zdůrazňují, že jde o bezserverové nástroje, serverless. Pro jejich nasazení tedy není třeba nastavovat nebo spravovat, natož provozovat, žádnou infrastrukturu.