Onbetrouwbare AI: Hoe kun je omgaan met ‘data-vergiftiging’

7 minuten leestijd

21 / 02 / 2025

door Michelle Dolk

Volledig vertrouwen op een AI-assistent kan is sommige gevallen best gevaarlijk zijn, aangezien vergiftiging van jouw database de output aanzienlijk kan veranderen – soms zelfs op gevaarlijke wijze. Onbetrouwbare AI: Hoe kun je omgaan met ‘data-vergiftiging’

Moderne technologie is verre van feilloos. Dit zien we bijvoorbeeld aan de vele kwetsbaarheden die voortdurend opduiken. Hoewel het ontwerpen van systemen die van nature veilig zijn een bewezen best practice is, kan dit middelen wegnemen van andere gebieden, zoals het design van de gebruikservaring (UX), prestatieoptimalisatie en compatibiliteit met andere oplossingen en diensten.

Hierdoor krijgt beveiliging vaak een lagere prioriteit prioriteit en wordt alleen aan minimale compliancevereisten voldaan. Dit compromis is vooral zorgwekkend wanneer gevoelige gegevens betrokken zijn, aangezien dergelijke gegevens bescherming vereisen die in verhouding staat tot hun kritieke aard. Tegenwoordig worden de risico’s van ontoereikende beveiligingsmaatregelen steeds duidelijker bij kunstmatige intelligentie en machine learning (AI/ML)-systemen, waarbij data de fundering van de functionaliteit vormt.

Wat is data-vergiftiging?

AI/ML-modellen worden gebouwd op core training datasets die continu worden bijgewerkt door middel van leren onder toezicht en leren zonder toezicht. Machine learning (ML) is een belangrijke pijler binnen AI, waarbij ML onder andere deep learning mogelijk maakt om de vele capaciteiten van AI te ontwikkelen. Hoe diverser en betrouwbaarder de data, des te nauwkeuriger en nuttiger de output van het model zal zijn. Daarom hebben deze modellen tijdens hun training toegang nodig tot enorme hoeveelheden gegevens.

Machine learning by ESET: The road to Augur

Aan de andere kant brengt deze afhankelijkheid van grote hoeveelheden data ook risico's met zich mee, omdat niet-geverifieerde of slecht geverifieerde datasets de kans op onbetrouwbare resultaten vergroten. Generatieve AI, met name large language models (LLM's) en hun toepassingen als AI-assistenten, zijn bijzonder kwetsbaar voor aanvallen waarbij kwaadwillenden de modellen manipuleren voor schadelijke doeleinden.

Eén van de meest verraderlijke dreigingen is data-vergiftiging, waarbij aanvallers proberen het gedrag van het model te veranderen, waardoor het onnauwkeurige, bevooroordeelde of zelfs schadelijke outputs genereert. De gevolgen van dergelijke manipulaties kunnen zich breed verspreiden, het vertrouwen ondermijnen en systeemrisico’s veroorzaken voor zowel individuen, als organisaties.

Soorten data-vergiftiging

Er zijn verschillende soorten aanvallen van data-vergiftiging, zoals:

Data-injectie: Aanvallers voegen kwaadwillige datapunten toe aan de trainingsdata om het gedrag van een AI-model te wijzigen. Een bekend voorbeeld hiervan is hoe online gebruikers de Tay Twitter-bot manipuleerden om aanstootgevende berichten te plaatsen.
Insider-aanvallen: Net als bij reguliere insider threats kunnen werknemers hun toegang misbruiken om de trainingsset van een model stukje bij beetje te wijzigen en zo het gedrag te veranderen. Insider-aanvallen zijn bijzonder verraderlijk omdat ze misbruik maken van legitieme toegang.
Trigger-injectie: Deze aanval voegt gegevens toe aan de trainingsset van een AI-model om een trigger te creëren. Hierdoor kunnen aanvallers de beveiliging van een model omzeilen en de output manipuleren wanneer de trigger wordt geactiveerd. Het detecteren van deze aanval is moeilijk, omdat de trigger verborgen blijft totdat deze wordt geactiveerd.
Supply-chain aanval: De gevolgen van dergelijke aanvallen kunnen bijzonder ernstig zijn. Omdat AI-modellen vaak gebruik maken van componenten van derden, kunnen kwetsbaarheden die tijdens het supply-chainproces worden geïntroduceerd uiteindelijk de beveiliging van het model aantasten en het blootstellen aan misbruik.

Nu AI-modellen steeds dieper worden geïntegreerd in zowel zakelijke als consumentenoplossingen, waar ze fungeren als assistenten of productiviteitsverhogers, worden aanvallen op deze systemen een groeiende zorg. Hoewel zakelijke AI-modellen mogelijk geen data delen met derden, verwerken ze nog steeds interne gegevens om hun output te verbeteren. Hiervoor hebben ze toegang nodig tot een grote hoeveelheid gevoelige informatie, waardoor ze aantrekkelijke doelwitten worden. De risico’s nemen nog verder toe bij consumentenmodellen, die vaak de invoer van gebruikers – inclusief gevoelige gegevens – delen met andere partijen.

Hoe kan de ontwikkeling van ML/AI worden beveiligd?

Preventieve strategieën voor ML/AI-modellen vereisen bewustzijn van zowel ontwikkelaars als gebruikers. Belangrijke strategieën zijn:

Continue controles en audits: Het is belangrijk om de integriteit van de datasets die in AI/ML-modellen worden ingevoerd, voortdurend te controleren en te valideren om te voorkomen dat kwaadwillige manipulatie of bevooroordeelde data deze modellen in gevaar brengen.
Focus op beveiliging: AI-ontwikkelaars kunnen zelf het doelwit van aanvallers worden, dus een beveiligingsaanpak die zich richt op preventie, vroege detectie en systematische securitycontroles is noodzakelijk voor een veilige ontwikkeling.
Adversarial training: Zoals eerder vermeld, worden modellen vaak begeleid door professionals om hun leerproces te begeleiden. Dezelfde aanpak kan ook worden gebruikt om modellen te leren onderscheid te maken tussen kwaadaardige en geldige datapunten, wat uiteindelijk helpt om aanvallen gericht op data-vergiftiging te voorkomen.
Zero trust en toegangsbeheer: Om zowel interne als externe dreigingen af te weren, raden wij aan een beveiligingsoplossing te gebruiken die ongeautoriseerde toegang tot de kerngegevens van een model bewaakt. Dit maakt het gemakkelijker om verdacht gedrag te detecteren en te voorkomen. Bovendien wordt bij een zero trust-beleid niemand standaard vertrouwd, waardoor meerdere verificaties nodig zijn voordat toegang wordt verleend.

Secure by design

Het bouwen van AI/ML-platforms die "secure by design" zijn, is niet alleen nuttig – het is noodzakelijk. Net zoals desinformatie mensen kan beïnvloeden in de richting van schadelijk en extreem gedrag, kan een vergiftigd AI-model ook tot schadelijke resultaten leiden.

Nu de wereld steeds meer aandacht besteedt aan de risico’s die gepaard gaan met AI-ontwikkeling, zullen platformontwikkelaars zichzelf moeten afvragen of ze voldoende hebben gedaan om de integriteit van hun modellen te beschermen. Het aanpakken van vooroordelen, onnauwkeurigheden en kwetsbaarheden voordat ze schade kunnen aanrichten, moet een centrale prioriteit zijn in de ontwikkeling.

Naarmate AI steeds verder in ons dagelijks leven wordt geïntegreerd, zal de noodzaak om AI-systemen te beveiligen alleen maar toenemen. Bedrijven, ontwikkelaars en beleidsmakers moeten samenwerken om ervoor te zorgen dat AI-systemen bestand zijn tegen aanvallen. Door dit te doen, kunnen we het potentieel van AI benutten, zonder concessies te doen aan de veiligheid, privacy en het vertrouwen.

Een goed voorbeeld van een preventiegerichte aanpak, met oog op security is de Secure by Design-belofte van CISA, die ESET zelf ook heeft ondertekend en waarmee softwarefabrikanten worden aangemoedigd om krachtige beveiligingsmaatregelen te integreren in de levenscyclus van softwareontwikkeling.