Blogs

Dirty data brengt verborgen kosten met zich mee

dirty data

De kosten van ‘dirty data’, ofwel onnauwkeurige gegevens, zijn enorm. In dit blog beschrijft Jurriaan Krielaart van MarkLogic wat je daaraan kunt doen.

De kosten van ‘dirty data’, ofwel onnauwkeurige, onvolledige of inconsistente gegevens, zijn enorm. Volgens Gartner kostte slechte datakwaliteit organisaties in 2017 gemiddeld 15 miljoen dollar. De MIT Sloan Management Review becijfert bovendien dat het de gemiddelde organisatie maar liefst 15 tot 25 procent van de omzet kost. In de financiële sector, waar investeringsbanken wereldwijd alleen al zo’n 80 miljard dollar per jaar omzetten, betekent dat een kostenpost van tussen de 12 en 20 miljard. Hoe is dit mogelijk, en wat kan er aan gedaan worden?

In 60% van de gevallen is menselijk handelen de oorzaak van dirty data, zo blijkt uit onderzoek van Experian. Wanneer verschillende afdelingen bijvoorbeeld gegevens die aan elkaar gerelateerd zijn zonder goed beleid of afstemming opslaan in van elkaar gescheiden systemen, dan verslechtert daarmee automatisch de datakwaliteit van de overige systemen in de totale datahuishouding. Bestanden worden bijvoorbeeld gedupliceerd, inclusief foutieve spellingen van namen en adressen. Bovendien hebben datasilo’s vaak onhandige beperkingen die ervoor zorgen dat datums, rekeningnummers of persoonlijke informatie in verschillende formaten getoond worden, waardoor het moeilijk of onmogelijk is om ze automatisch te combineren.

Geconsolideerde dataverwerking
Een ander nadeel van dirty data is dat ze, nadat ze eenmaal zijn aangemaakt, jarenlang verborgen kunnen blijven. Dat maakt het nog lastiger om ze op te sporen en te corrigeren als ze eenmaal gevonden worden. De meeste organisaties ontdekken pas dat ze onbetrouwbare gegevens hebben als dit door hun klanten of prospects gemeld wordt. Dat is natuurlijk een bijzonder slechte manier om dataproblemen op te sporen.

Veel organisaties proberen inconsistente en onnauwkeurige gegevens te vinden met behulp van handmatige validatieprocessen. De reden hiervoor is meestal dat hun gegevens gedecentraliseerd zijn opgeslagen in verschillende systemen. Harvard Business Review meldt dat analisten maar liefst 50 procent van hun tijd besteden aan het zoeken naar gegevens, het corrigeren van fouten en het zoeken naar aanvullende bronnen om de gegevens die ze niet vertrouwen te bevestigen. Deze processen leiden tot hetzelfde probleem: elke afdeling is verantwoordelijk voor de onnauwkeurigheid van zijn eigen gegevens. Deze handmatige verwerking draagt bij tot interne inconsistenties tussen de afdelingsilo’s. Dat een fout op één plek wordt gecorrigeerd, betekent vaak niet dat diezelfde fout ook elders is hersteld, wat tot nóg meer dirty data leidt. Een geconsolideerde verwerking van data zou veel beter zijn.

Impact van vuile gegevens
Al deze problemen rond databeheer leiden tot enorme productiviteitsverliezen en, misschien nog erger, tot het verlies van vertrouwen in de gegevens die bij de bedrijfsvoering gebruikt worden. De eerdergenoemde schattingen van de verloren inkomsten als gevolg van dirty data lijken extreem hoog, maar zelfs als dit de bovengrens is van de werkelijke kosten, is de impact nog steeds aanzienlijk.

In een sterk gereguleerde sector zoals de financiële dienstverlening brengt dirty data nog hogere kosten met zich mee. Ontbrekende, onvolledige en onnauwkeurige gegevens kunnen ervoor zorgen dat er verkeerde transacties plaatsvinden, dat beslissingen langer duren door noodzakelijke handmatige controles, en er kan mogelijk niet voldaan worden aan regelgeving. MiFID II heeft financiële instellingen bijvoorbeeld een aanzienlijke extra last opgelegd om ervoor te zorgen dat hun gegevens op orde zijn.

Stop datavervuiling in drie stappen
Wat kan hier nu aan gedaan worden? Hier zijn een paar aandachtspunten voor organisaties die met dirty data te kampen hebben:

  1. Eén ‘golden record’ creëren van gegevens binnen een organisatie is al jarenlang een doel op zich. Maar wees hier voorzichtig mee. Alle gegevens van een organisatie verenigen, zonder die in een vast stramien te gieten, is een onmogelijke taak.
  2. Kies voor een data-first aanpak, waarbij je gegevens opslaat in de oorspronkelijk vorm, in plaats van de gegevens eerst te modelleren. Bij de conventionele aanpak wordt eerst een datamodel bepaald, voordat er met de gegevens gewerkt wordt. Dit leidt echter tot minder flexibiliteit en hogere kosten. De weg van dirty data naar schone data kan ook stapsgewijs worden bewandeld. Het opruimen van vuile gegevens betekent het daadwerkelijk verwijderen van ongeldige gegevens en duplicaten, het combineren van bestanden uit silo’s, enzovoort.
  3. Begin met het aanbrengen van vertrouwen in je data. Gegevens worden nog te vaak geïsoleerd gebruikt, zonder dat men kennis heeft van de herkomst, het moment van creatie, het oorspronkelijke bronsysteem, of dat dat de gegevens mogelijk met andere gecombineerd zijn. Metadata bieden hiervoor nuttige inzichten, omdat ze de intrinsieke waarde van een data-item aantonen en helpen om het ontstaan van dirty data te voorkomen.

Kortom, het is de moeite waard om te investeren in het stopzetten van dirty data. De zakelijke impact van onbetrouwbare gegevens is schokkend, maar organisaties kunnen dit vermijden als ze hun databeheer op de juiste manier aanpakken. Schone, betrouwbare gegevens maken een organisatie flexibeler en die kan daardoor sneller en gerichter reageren. Daarnaast zorgt schone data voor minder verspilde inspanningen van datawetenschappers en kenniswerkers. Dat gaat zich dus zeker terugbetalen!

Naar boven