Deterministische veiligheidsgates
Onderzoekers hebben dit zojuist gedemonstreerd tegen Microsoft Copilot.
Lees het GBHackers-artikel →De aanval: verberg instructies in een e-mail met simpele CSS-trucs. De menselijke lezer ziet een normaal bericht. Copilot leest de verborgen instructies en voert ze uit.
Het resultaat: wanneer iemand op "Samenvatten" klikt, genereert Copilot een nep-beveiligingswaarschuwing met een phishinglink. Het lijkt op een systeemmelding omdat het van de vertrouwde AI-assistent komt, niet uit de e-mail. Het wantrouwen van de gebruiker verdwijnt.
Het wordt erger. Omdat Copilot toegang heeft tot Teams-gesprekken, OneDrive-bestanden en SharePoint-documenten, kan de verborgen prompt het opdragen om gevoelige interne gegevens op te halen en in een uitgaande link te verwerken. Eén klik en je interne context wordt naar de aanvaller gestuurd.
Dit is exact het social engineering-patroon dat OpenAI vorige week in hun beveiligingsblog beschreef. Een aanvaller heeft twee dingen nodig: een manier om het model te beïnvloeden (de e-mail) en een gevaarlijke capaciteit om te misbruiken (toegang tot je data). Zonder een deterministische laag ertussen beslist het model wat het doet. En het model kan worden misleid.
De aanbevolen maatregelen van Microsoft: medewerkers opleiden, patronen monitoren, filterregels toepassen. Allemaal reactief. Allemaal mensafhankelijk.
Daarom hebben we Aimable gebouwd rond deterministische veiligheidsgates. Elke connector tussen het model en je data is een gate die niet redeneert, geen context interpreteert en niet sociaal gemanipuleerd kan worden. PII wordt gestript voordat het het model bereikt. Acties worden gecontroleerd tegen een afgebakend, tijdgelimiteerd mandaat. Datatoegang wordt gelogd en beperkt tot wat geautoriseerd is.
Het model mag zo slim of zo goedgelovig zijn als het wil. De veiligheidsgate maakt het niet uit.

