Traditionele data-integratie zorgt voor cyberrisico’s

Doe het goed, of doe het niet. Dat geldt in het bijzonder voor data governance: want tenzij er aandacht wordt besteedt aan ieder aspect, gedurende de hele levenscyclus van gegevens, ontstaat er een cyberrisico. Denk bijvoorbeeld aan de metadata die bij traditionele processen voor data-integratie weggegooid worden. Die kunnen om verschillende redenen zeer noodzakelijk zijn. Gelukkig is er een beter alternatief.

Jurriaan Krielaart, Territory Director van MarkLogic — Jurriaan Krielaart, MarkLogic

Bij informatiebeveiliging is het cruciaal om vroegtijdig signalen te detecteren, zoals incidentenpatronen of aanvalsvectoren. Daarnaast is ook belangrijk om naar de bredere, meer strategische kwesties rond gegevensbeveiliging te kijken. Tegenwoordig maken veel CIO’s, architecten en bedrijfsleiders zich zorgen over de beveiligingsproblemen die ontstaan door traditionele processen voor data-integratie van relationele databases. Die beveiliging van traditionele databases bestaat meestal uit een vorm van toegangscontrole. Die moet idealiter op basis van rollen en beleid werken, om de gegevens optimaal, en in overeenstemming met de bijbehorende rechten te kunnen beheren. Zonder deze mogelijkheden wordt het beveiligen van gegevens onnodig complex, met alle risico’s van dien.

Helaas gebruiken de meeste organisaties nog een wildgroei aan gescheiden relationele databases, die elk hun eigen toegangscontroles en beveiliging hebben. Daardoor is het vrijwel onmogelijk om alle gegevens adequaat te monitoren en beschermen. Organisaties zoeken daarom door middel van grootschalige projecten voor data-integratie naar oplossingen om dit probleem het hoofd te bieden, maar dat blijkt bijzonder lastig.

ETL
De traditionele aanpak voor data-integratie met relationele databases is ETL (extract, transform, load). Dit proces leidt vaak tot dataverlies en governance-problemen, omdat de gegevens en de bijbehorende metadata naar een ander formaat getransformeerd worden. Daarnaast maken veel van de ETL-tools op de markt gebruik van gesloten code en onduidelijke integraties, om nog maar te zwijgen over de beveiliging van de oplossingen zelf. Dus hoe je het ook wendt of keert: naarmate er meer datasilo’s binnen een organisatie zijn, nemen ook de inbraakmogelijkheden voor cybercriminelen toe.

Centrale datawarehouse
Bij een complexe ETL-uitdaging bouwt een team vaak een proces voor data-integratie waarbij de gegevens van meerdere, vaak relationele, databases naar één gecentraliseerd analytisch datawarehouse worden gemigreerd. Men kiest vaak voor ETL om twee primaire redenen:

Om het systeem te laten functioneren
Het opschonen van gegevens voor een bedrijfsproces dat een uniform datamodel vereist.

Toch lukt het meestal niet om een goede datakwaliteit te waarborgen bij data-integratie. Sterker nog: het opschoonproces kan de kwaliteit juist verlagen doordat er belangrijke metadata verwijderd worden. Want voor een data-analist kunnen sommige metadata op overtollige gegevens lijken, die ze liever kwijt dan rijk zijn. Maar voor een compliance-analist of data-modeller kunnen diezelfde data juist cruciale informatie bevatten, bijvoorbeeld om aan een regelgevende instantie te kunnen bewijzen dat er legaal gehandeld is, en zo een stevige boete te vermijden.

Mike Fillion, directeur architectuur bij de Amerikaanse gezondheidszorg-organisatie Aetna zegt hierover : “Het kan auditors niet schelen of de gegevens vervuild zijn. Ze vinden het zelfs verdacht als je data gaat opschonen… De database is de sleutel tot strategische data-integratie.”

Risicoverlagende stappen
De vraag is nu: hoe kun je de security-risico’s tijdens het proces voor data-integratie verlagen? Om te beginnen moet de last van het traditionele ETL-proces weggenomen worden. Dit is mogelijk door de brongegevens ongewijzigd op te slaan in een NoSQL-database en die daarin te transformeren en harmoniseren. Het hele proces van gegevensintegratie verloopt hierdoor veel sneller en soepeler, nog belangrijker: tijdens het proces worden geen gegevens weggegooid.

In feite spreek je hier van een database die meerdere datamodellen ondersteunt, een zogeheten multi-model database. En idealiter moet de database ook in staat zijn om een veelvoud aan documentformaten op te slaan en werken met semantische triples. Dit maakt het over lange tijd beheren van de gegevens een stuk makkelijker. Met NoSQL kun je dus op basis van meerdere datasilo’s hoogwaardige bedrijfsconcepten beheren en deze als entiteiten en relaties gebruiken. De gegevens en metadata blijven in deze aanpak voor data-integratie bij elkaar, en alle details zijn gedurende de hele levenscyclus te volgen, zoals de herkomst van de gegevens, wie ze kunnen zien, hoe dat is gewijzigd. En dat allemaal in één systeem. Fillion stelt verder: “NoSQL geeft je een enorm voordeel. Je kunt de gegevens laden zoals ze zijn, ze profileren, begrijpen welke data van lage kwaliteit is, en ze terugsturen naar de beheerder om ze te herstellen. Dat belangrijke aspect van data governance wordt hiermee opgelost.”

Kortom
Het gebruik van NoSQL bij projecten voor data-integratie verlaagt de kansen op cyberaanvallen en datalekken door de uniforme manier waarop de gegevens beheerd worden, en het feit dat er geen gegevens worden weggegooid. En ten slotte biedt NoSQL een veel flexibeler platform om slimmer met gegevens te werken, sneller aan veranderende regelgeving en rapportage-eisen.

Footer

Zoeken