Onze data consultants hebben zich volledig ondergedompeld in de toekomstige wereld van Amazon Web Services (AWS) bij de AWS Summit 2023. Tijdens deze inspirerende dag werden veelbelovende ontwikkelingen gepresenteerd die we de komende tijd kunnen verwachten. Degene waarin wij de grootste potentie zien, delen we met jou in deze blog.  

Hoe kan het ook anders, generative AI is dé hype van dit moment en laten we eerlijk zijn, de potentie is enórm. Binnen AWS is dat niet anders. Er zijn twee AWS services die hier handig gebruik van maken: 

1. GenerativeAI service Amazon Bedrock 

Amazon Bedrock is een Generative AI tool die AWS als Software as a Service (SaaS) beschikbaar gaat stellen. Dit maakt het mogelijk om een ChatGPT-achtige oplossing te bouwen, specifiek voor jouw business. Denk aan chatbots, image generation en personalisatie. Het mooie is dat je dit met Bedrock kan trainen op jouw eigen data, die alleen binnen jouw AWS omgeving beschikbaar zijn. Hierdoor kan je hele specifieke oplossingen bouwen. Op dit moment is Bedrock zeer gelimiteerd beschikbaar, dus stay tuned!

2. Automatisch code aanvullen met Amazon CodeWhisperer

Developers, spits je oren! Amazon maakt jouw leven als programmeur wat makkelijker met CodeWhisperer. Een service die jouw code automatisch aanvult tijdens het ontwikkelen. Dit is getraind op publieke code projecten maar neemt de specifieke variabelen en parameters die al in jouw project gedefinieerd zijn mee. Handig om sneller te werken of je code te optimaliseren. 

Met zero ETL (Extract Transform Load) verwijder je de transformatie stap uit je initiële proces. De data wordt één-op-één uit het bronsysteem overgenomen naar een analytische database zodat je er direct op kan queryen. Het direct doorzetten van data was al langer mogelijk van S3 naar Redshift met Redshift Spectrum. In de summit werd de nieuwe integratie tussen Aurora en Redshift gepresenteerd, waarmee we steeds meer naar een Zero ETL toekomst bewegen. 

Door de transformatie stap, die vaak computationeel intensief is, over te slaan, maakt Zero ETL het mogelijk om near real-time data in je analytische database beschikbaar te stellen. Hier kan je dan direct inzichten uithalen of zelfs machine learning op toepassen. De transformatie stap kan je natuurlijk nog steeds uitvoeren en plannen, maar het is dan niet meer nodig om op de data als geheel te wachten. 

Amazon Step Functions en Amazon EventBridge maken het mogelijk om een verwerkingsproces op je data te laten afvuren, wat wordt getriggerd op basis van een event. Omdat het proces start bij het plaatsvinden van een event, kan ook dit near real-time. Een event driven architecture in AWS bestaat uit 4 componenten. 

  1. Er vindt een event plaats: in het meest voorkomende scenario komt er een bestand binnen op S3.

  2. Een event wordt getriggerd in EventBridge.

  3. In Step Functions wordt een workflow afgevuurd. Deze workflow is een verzameling van acties en beslissingen die de data transformeren, verplaatsen of verrijken. 

  4. De Simple Queue Service (SQS) is een integraal onderdeel van deze oplossing, die verschillende processen binnen bijvoorbeeld Step Functions aan elkaar koppelt.

Een grote ontwikkeling is dat Step Functions voorheen beperkt was in de services die je hiervoor in kon zetten. Nu werkt het met nagenoeg alle AWS-services samen. 

Een veelvoorkomende uitdaging in huidige data lakes is dat het updaten van informatie een heel prijzig proces is. Daarom wordt data vaak niet geüpdatet, maar overschreven, waarbij de oude bestanden blijven staan. Dit brengt een zwaktepunt met zich mee op het gebied van AVG naleving, omdat ook het verwijderen of anonimiseren van gegevens (onder het recht om vergeten te worden) een dure handeling is. Open table formats, zoals Apache Iceberg en Apachi Hudi, komen steeds meer op en bieden hier een oplossing voor! In onderstaande tabel is het namelijk wel mogelijk om bestanden in de data lake op een gemakkelijke en goedkope manier aan te passen. Dit komt omdat het technisch met een metadata-laag boven op een Apache Parquet bestand werkt.

Apache Iceberg Metadata Technical Explanation.png

AWS is met hun huidige planning op weg om de doelen die in het Parijs Akkoord gesteld zijn al in 2040 te halen (in plaats van 2050). Op dit moment zijn 75% van hun datacentra klimaatneutraal. Daarnaast willen ze vanaf 2030 schoon water, dat ze gebruiken voor hun koelsystemen, terugleveren aan de community in de omgeving van hun datacentra. 

Begint het bij jou nu ook te kriebelen door deze nieuwe cloud oplossingen!? Of juist overspoeld door vragen? We denken graag met je mee. Je kunt ons altijd bellen of mailen.