Onze IT-strijders onderzoeken dagelijks Machine Learning toepassingen. Demand forecasting is één van de vele manieren om data om te zetten tot waardevolle inzichten. Benieuwd hoe? Lees meer over Demand Forecasting én waarom je daar nu mee aan de slag moet.

Veel sectoren worden steeds efficiënter en competitiever. Meer economische activiteiten vinden online plaats en genereren enorme hoeveelheden aan data. In deze omgeving zijn machine learning modellen van onschatbare waarde om een voorsprong te behalen op de concurrentie.

Het doel van demand forecasting is om de toekomstige vraag naar een bepaald product of dienst inzichtelijk te maken. Dit gebeurt vrijwel altijd aan de hand van historische sales data in de vorm van een time series oftewel, tijdreeks. Een time series is een grafiek die een hoeveelheid tegenover de constant lopende tijd laat zien. In het bedrijfsleven wordt het vaak gebruikt om de vraag naar een product of dienst over een bepaalde periode overzichtelijk te maken. Denk aan de hoeveelheid shampoo flessen die zijn verkocht door L’oreal van 1960 tot 1999.

Voorbeeld van een time series grafiek - Machine Learning

Dit soort grafieken kunnen erg inzichtelijk zijn voor business strategen om patronen te herkennen en daarmee de bedrijfsprocessen aan te passen aan de hand van deze verkregen inzichten. Wat potentieel nog nuttiger is, is als een computermodel de toekomstige vraag naar een product of dienst relatief nauwkeurig kan voorspellen voor de toekomst. Zo ontstaat er een verwachting voor de vraag en omzet waar een organisatie haar bedrijfsvoering op kan afstemmen.

Gelukkig bestaan er meerdere state-of-the-art technieken die precies hiervoor zijn ontworpen. Het idee achter deze wiskundige voorspellingsmodellen is om de time-series data op te delen in verschillende onafhankelijke signalen die wiskundig benaderd worden. Vervolgens worden deze gecombineerd tot een voorspelling. Veel van deze soort wiskundige modellen worden vaak autoregressieve modellen genoemd en gaan uit van drie soorten bestanddelen waaruit een time series is opgebouwd en proberen deze bestanddelen na te bootsen.

1. Moving average

Ten eerste is er een moving average oftewel een bewegend gemiddelde, dit voorspelt de richtingen waarin de tijdreeks zich in grove lijnen beweegt, los van individuele schommelingen.

2. Autoregressie

Ten tweede is er het autoregressief gedeelte, dit voorspelt de schommelingen rondom het bewegende gemiddelde, dit soort schommelingen worden volgens het model sterk beïnvloed door patronen van dezelfde soort schommelingen in het verleden die een seizoensgebonden factor kunnen hebben. Dit gedeelte van het wiskundige model is effectief in het voorspellen van willekeurig ogende fluctuaties die toch een bepaalde consistentie hebben in het verleden van de tijdreeks.

3. Noise

Ten derde is er de noise. Dit gedeelte verwerkt een zekere marge van willekeur in het model en gaat ervan uit dat ook in het daadwerkelijke (real world) process waarin de data wordt gegenereerd een zekere mate van willekeur zit. Dit wordt gedaan door onvoorspelbare fluctuaties in het verleden te kwantificeren in een kans distributie (probability distribution) die vervolgens verwerkt wordt in het wiskundige model om rekening te houden met een marge van onzekerheid.

Voorbeeld van resultaat van een wiskundig demand forecasting model

Een van deze modellen heet ARIMA (AutoRegressive Integrated Moving Average).
Dit is een model met een hoge mate van aanpasbaarheid en bestaat uit de drie eerder uitgelegde modellen. De wiskundige kern van het model gaat voorbij de reikwijdte van dit artikel, maar het model berekent steeds de waarde van het eerstvolgende onbekende datapunt en neemt hierbij de gehele time series in acht.

Een mooi voorbeeld van de toepassing van ARIMA is een casus over elektriciteitsgebruik in China. Voor een snel ontwikkelend land als China waarbij een jaarlijkse groei in elektriciteitsverbruik van 34% niet ongehoord is, is het van groot belang om grip te krijgen op toekomstig energiegebruik. Aan de hand van gebruiksdata van 2006 tot 2010 en een variant van het ARIMA model is een voorspelling gegenereerd met een MAPE van onder de 3%.

MAPE staat voor Mean Average Percentage Error, dit is het het absolute verschil tussen voorspelling en werkelijkheid uitgedrukt als een percentage van de voorspelling. Door middel van een ARIMA model heeft China dus met hoge nauwkeurigheid de vraag naar elektriciteit van de bevolking kunnen voorspellen.

Een voorbeeld van grotere schaal is de voorspelling van regenval in Kanchipuram. Aan de hand van 1200 verschillende regenval datasets uit dat gebied van 1901 tot 2002 hebben wetenschappers een ARIMA prognose van vier jaar gemaakt dat een MAPE heeft van 6.5%. Ook natuurgebonden processen zijn goed te modelleren met een autoregressief model zoals ARIMA.

Time series forecasting technieken zoals ARIMA zijn erg goed in het voorspellen van langetermijndata met een periodiek karakter, desondanks blijven extreme externe factoren onvoorspelbaar, denk aan natuurrampen of economische crises. Zelfs een bedrijf met de beste forecasting technieken zal nog steeds verrast worden door dit soort plotselinge externe omstandigheden. Daarnaast zijn niet alle processen geschikt voor dit soort statistische modellen. Als het verloop van een tijdreeks extreem volatiel en willekeurig lijkt is een andere aanpak wellicht meer geschikt. In dit geval zou een neuraal netwerk een geschikte oplossing kunnen zijn.

Echter werkt een neuraal netwerk als een black box en biedt weinig inzicht in hoe het model tot de gemaakte voorspelling is gekomen. Dit maakt de inzichten van een neuraal netwerk aanzienlijk minder waardevol dan een wiskundig model dat deterministisch van aard is.

Voor time series is het erg belangrijk om consistent en volledige data te hebben. Ook is het belangrijk dat de data accuraat is. Stel dat een aantal keer 10% van de maandelijkse sales niet opgenomen zijn in de dataset kan dit het verschil zijn tussen een correcte of incorrecte prognose. De uiteindelijke keuze voor een wiskundig autoregressief model of een complexer model zal afhangen van de hoeveelheid en nauwkeurigheid van de time series data evenals de wensen van het bedrijf dat een voorspellingstechniek wil inzetten.

Belangrijkste principes voor de data:

  1. De data is compleet. Er zijn geen missende- of inaccurate waarden.

  2. Er is data beschikbaar over een relatief lang tijdsbestek zonder veel interrupties.

De toekomstige vraag van een bepaald product of dienst inzichtelijk maken is ontzettend waardevol voor jouw business. Benieuwd waar je moet beginnen? Of heb je al een bak aan data maar weet je niet hoe je de volgende stap moet zetten? Wij helpen je de kaf van het koren te scheiden en creëren waardevolle inzichten voor jouw business.

Waar wacht je nog op?