Hoe AI-stemtechnologie virtuele ontvoeringen mogelijk maakt

Digitaal bedrog: hoe AI-stemtechnologie virtuele ontvoeringen mogelijk maakt

Met behulp van biometrische informatie afkomstig van social media en zelfs overheidswebsites, kunnen cybercriminelen stemmen verontrustend nauwkeurig nabootsen en voor virtuele ontvoeringen gebruiken.
  • Wereldwijd onderzoek onthult de zorgwekkende doeltreffendheid van oplichting met AI-stemklonen
  • Virtuele ontvoeringstactieken onder de loep
  • Hoe generative AI steeds vaker wordt ingezet voor stemklonen
  • Real-life voorbeelden van virtuele ontvoeringen
  • Hoe ziet de toekomst van cyberontvoering eruit?

Hoewel AI en machine learning-technologieën veel van onze dagelijkse activiteiten stroomlijnen, complexe taken vereenvoudigen en hele sectoren transformeren, kunnen we niet ontkennen dat deze ontwikkelingen ook een schaduwkant hebben. Deze geavanceerde tools zijn uiteraard ontwikkeld met de bedoeling onze kwaliteit van leven te verbeteren, maar ze worden ook steeds vaker voor duistere doeleinden gebruikt. Ook cybercriminelen maken slim gebruik van opkomende technologieën. Vooral AI wordt steeds vaker ingezet om nietsvermoedende personen te misleiden, zich als een ander voor te doen en slachtoffers uit te buiten. Zo waarschuwde de FBI onlangs voor een zorgwekkende trend: cybercriminelen die alledaagse foto’s en video’s van het internet halen en met deepfake-technologie bewerken om verbijsterend realistische nepcontent te creëren voor sextortion-doeleinden; verontrustende praktijken die enorm winstgevend zijn voor cybercriminelen.

Zo verdiepen steeds meer kwaadwillende individuen zich in de wereld van door AI gecreëerde deepfake-audio, ook bekend als stemklonen. Met maar een klein beetje biometrische informatie van social-mediaplatforms of zelfs officiële overheidsportals kunnen cybercriminelen stemmen met verontrustende nauwkeurigheid nabootsen. Tools als VoiceLab zijn door iedereen te gebruiken om deze deepfake-stemmen te synthetiseren, waardoor ze bijna niet van echt te onderscheiden zijn. Deze levensechte stemimitaties bieden afpersers legio nieuwe mogelijkheden. Zo bedenken ze allerlei verontrustende situaties, vaak geïnspireerd op films, waardoor het lijkt alsof een dierbare in groot gevaar verkeert. Uit steeds meer incidenten blijkt hoe cybercriminelen deze stemimitaties gebruiken om onwetende slachtoffers te misleiden en hen zo te overhalen flinke losgeldbedragen te betalen. Zo leidden incidenten waarbij sprake was van identiteitsfraude volgens cijfers van de Federal Trade Commission in 2022 tot verliezen van maar liefst $2,6 miljard. De toenemende AI-gestuurde cyberdreigingen dwingen ons dan ook om in dit digitale tijdperk een betere balans te vinden tussen innovatie en het mogelijke misbruik ervan.

“De berichten die cybercriminelen creëren zijn redelijk voorspelbaar. Ze klinken altijd urgent en wanhopig. Ze maken vaak gebruik van stemklonen om zich voor te doen als een vriend of als familielid dat bijvoorbeeld beroofd is, een auto-ongeluk heeft gehad of gewond geraakt is. Wat ze ook verzinnen, het gaat er altijd om dat ze direct geld nodig hebben”.

Amy Bunn, hoofd communicatie bij McAfee

Wereldwijd onderzoek onthult de zorgwekkende doeltreffendheid van oplichting met AI-stemklonen

Uit een recent onderzoek van cybersecuritygigant McAfee, waar 7.000 mensen uit de hele wereld aan deelnamen, blijkt dat maar liefst één op de vier mensen al slachtoffer is geworden van dit soort oplichtingspraktijken of iemand kent bij wie dit is gebeurd. De modus operandi is angstaanjagend eenvoudig: gewapend met een kort audiofragment kunnen deze oplichters een bijna niet van echt te onderscheiden replica genereren van welke stem dan ook. Vervolgens zetten ze deze stemklonen in om voiceberichten te verzenden. Stemimitatietechnologieën kunnen zelfs allerlei accenten uit verschillende delen van de wereld verbazingwekkend nauwkeurig nabootsen, wat aantoont dat ze al op een zeer geavanceerd niveau functioneren. De stemmen van mensen met een kenmerkend spreekritme of andere duidelijke bijzonderheden in hun manier van praten kunnen echter minder goed door deze systemen gekloond worden. Het onderzoek van McAfee benadrukt dat een groot deel van het publiek, namelijk 70 procent, moeite heeft om een echte stem van een door AI gecreëerde versie te onderscheiden.

Ongeveer 53 procent van de volwassenen deelt regelmatig voice data. Bijna 49 procent doet dit zelfs wel tien keer per week. Hierdoor is inmiddels een enorme hoeveelheid data publiekelijk beschikbaar die voor cyberaanvallen gebruikt kan worden.

McAfee

Verontrustend genoeg bleek uit het onderzoek dat één op de tien respondenten al eens te maken heeft gehad met een AI-stemkloon die hen probeerde te misleiden. Nog zorgwekkender is dat maar liefst 77 procent van deze mensen uiteindelijk geld is kwijtgeraakt door deze geavanceerde oplichting. Uit een diepere analyse van de financiële impact blijkt dat ruim een derde (36 procent) tot $3.000 is kwijtgeraakt en dat bij zeven procent tussen de $5.000 en $15.000 afhandig is gemaakt. Het onderzoek benadrukt verder het gemak waarmee cybercriminelen toegang kunnen krijgen tot echte stemopnames om overtuigende klonen te maken. Omdat meer dan de helft (53 procent) van de volwassenen regelmatig hun voice data deelt en bijna de helft daarvan (49 procent) dit zelfs wel tien keer per week doet, is er inmiddels een enorme hoeveelheid data publiekelijk beschikbaar die voor cyberaanvallen gebruikt kan worden. Spraakgegevens worden doorgaans via podcasts of video’s op social media gedeeld. Vooral jongeren en publieke figuren, die nieuwe technologie en snelgroeiende social-mediaplatforms vaak als eerste omarmen, lopen het gevaar dat hun biometrische gegevens voor virtuele ontvoeringen gebruikt worden. Instagram, Facebook en TikTok zijn ideale platforms om potentiële doelwitten te identificeren en specifieke informatie te verzamelen. Cybercriminelen maken hier slim gebruik van om hyper-authentieke content te creëren voor hun misdadige praktijken.

De populariteit van spraakgestuurde technologie maakt de uitdagingen rond cyberbeveiliging bovendien nog een graadje erger. Het is dan ook van cruciaal belang om meer publiek bewustzijn te creëren en robuuste tegenmaatregelen te ontwikkelen om dit soort cyberdreigingen te voorkomen. “De berichten die cybercriminelen creëren zijn redelijk voorspelbaar. Ze klinken altijd urgent en wanhopig. Ze maken vaak gebruik van stemklonen om zich voor te doen als een vriend of als familielid dat bijvoorbeeld beroofd is, een auto-ongeluk heeft gehad of gewond geraakt is. Wat ze ook verzinnen, het gaat er altijd om dat ze direct geld nodig hebben”, vertelt Amy Bunn, hoofd communicatie bij McAfee. Uit het onderzoek van de firma blijkt bovendien dat bijna de helft van de deelnemers toegeeft op voicemails of gesproken berichten te reageren wanneer deze van een goede vriend of familielid afkomstig lijken te zijn. Vooral als het gaat om de stem van een partner, ouder of kind. Deze cybercriminelen bedenken overtuigende verhalen waarin degene die zogenaamd belt zich in erbarmelijke omstandigheden lijkt te bevinden. Zo wordt gesuggereerd dat ze beroofd zijn, een ongeluk hebben gehad, hun portemonnee zijn kwijtgeraakt of in een andere urgente of gevaarlijke situatie terechtgekomen zijn. Deze fictieve scenario’s worden bewust zo urgent en beangstigend mogelijk opgezet zodat de gebelde persoon niet helder meer kan nadenken en zich gedwongen voelt zo snel mogelijk — en ondoordacht — te handelen. Wat het allemaal nog erger maakt is dat deze cybercriminelen vaak eisen dat het losgeld via bepaalde kanalen betaald wordt, waardoor de transacties moeilijk te traceren zijn, of via methodes zonder optie om betaalopdrachten terug te draaien. Denk daarbij aan traditionele bankoverschrijvingen, oplaadbare debitcards, cadeaubonnen of cryptovaluta.

Met behulp van geavanceerde AI-software kunnen criminelen de stem van een slachtoffer nabootsen en door daarbij geluidsfragmenten uit dramatische filmscènes te gebruiken ontstaat een overtuigend en verontrustend nepscenario.

Virtuele ontvoeringstactieken onder de loep

De algemene blauwdruk van een virtueel ontvoeringsplan bestaat uit zorgvuldig geplande fasen. In eerste instantie richten de daders zich op het identificeren van iemand die financieel in staat is aanzienlijke losgeldbedragen te betalen. In veel gevallen is deze persoon nauw verwant aan het beoogde slachtoffer, waardoor de emotionele impact van de situatie wordt versterkt. Zodra de persoon die virtueel ‘ontvoerd’ moet worden is geselecteerd, bedenken de criminelen een meeslepend en emotioneel geladen verhaal dat bedoeld is om de persoon die het losgeld moet betalen te verwarren en overweldigen. Angst is een belangrijk onderdeel van de strategie; iemand die doodsbang is kan vaak niet meer rationeel denken en handelt impulsief, zonder de kwestie goed te overdenken. Naarmate de technologie blijft evolueren krijgen ook deze cybercriminelen steeds meer geavanceerde tools tot hun beschikking waarmee ze doelwitten nog beter kunnen misleiden. Zo maken ze bijvoorbeeld gebruik van het stemgeluid in video- of audioclips op social mediaprofielen of zetten ze deepfake-technologie in. Met behulp van geavanceerde AI-software kunnen criminelen de stem van een slachtoffer nabootsen en door daarbij geluidsfragmenten uit dramatische filmscènes te gebruiken ontstaat een overtuigend en verontrustend nepscenario.

Timing speelt natuurlijk ook een belangrijke rol. Zo houden de criminelen de online aanwezigheid van het slachtoffer nauwlettend in de gaten, zodat ze het ideale aanvalsmoment kunnen bepalen. Hun doel is onder andere om toe te slaan wanneer de echte persoon (waarvan een virtuele versie geconstrueerd wordt) niet in de buurt is van de persoon die het losgeld moet betalen. Op deze manier is het namelijk lastiger om te controleren of de situatie daadwerkelijk is zoals de criminelen beweren. Tijdens het cruciale ‘losgeldgesprek’ maken ze vaak gebruik van modulatiesoftware, waarmee ze hun stem zo veranderen dat hun eisen nog grimmiger en angstaanjagender klinken. Om de algehele impact nog verder te versterken kunnen ze bovendien verontrustende, gemanipuleerde stemopnames op de achtergrond afspelen, waardoor het nog lastiger wordt om hun verhaal in twijfel te trekken. Cybercriminelen gebruiken soms ook een tactiek die bekendstaat als SIM-jacking om controle te krijgen over het telefoonnummer van de ‘ontvoerde’ persoon. Hierdoor kunnen ze alle oproepen en berichten doorsturen naar hun eigen apparaat, waardoor met de daadwerkelijke eigenaar van het nummer geen communicatie meer mogelijk is. En doordat het ‘slachtoffer’ onbereikbaar is, is de kans ook groter dat de bezorgde partij het losgeld betaalt. Zodra de criminelen het losgeld veilig hebben gesteld, wissen ze zo snel mogelijk hun sporen. Het losgeld ondergaat vaak ingewikkelde witwasprocessen om de herkomst ervan te verdoezelen. Digitale voetafdrukken worden zorgvuldig van het internet verwijderd en alle fysieke tools, zoals ‘burner phones’, worden onmiddellijk weggegooid. Dit methodische proces zorgt ervoor dat de daders ongrijpbare schaduwen blijven, klaar om opnieuw toe te slaan.

Hoe generative AI steeds vaker wordt ingezet voor stemklonen

Naarmate de technologische vooruitgang zich blijft uitbreiden krijgen ook cybercriminelen steeds geavanceerdere tools tot hun beschikking. Bij de laatste golf van cyberaanvallen is veel gebruikgemaakt van generative AI om nog overtuigender virtuele kidnapscenario’s te creëren. Generative AI wordt vooral ingezet om voor bepaalde skillsbeperkingen te compenseren en om de arbeidsintensieve onderdelen van de aanvallen te stroomlijnen. Om de meest lucratieve slachtoffers te kunnen identificeren moeten bijvoorbeeld enorme hoeveelheden data geanalyseerd worden, wat op de ‘traditionele’ manier haast onbegonnen werk is. Maar met generative AI-tools als ChatGPT kunnen criminelen informatie van en over potentiële slachtoffers veel sneller analyseren. In dit door gen-AI-aangestuurde filteringsproces worden niet alleen audio- en visuele details opgenomen, maar ook informatie als geolocatie — wat mogelijk gemaakt wordt door API-verbindingen.

Informatie wordt doorgestuurd naar ChatGPT en vervolgens doorgegeven aan de beoogde ontvanger. Wanneer de aanvaller een reactie krijgt van de ontvanger, kan deze zijn bericht met ChatGPT nog effectiever maken. Deze analytische inzichten kunnen afkomstig zijn van allerlei publieke platforms en op basis van de verwachte losgeldbetalingskansen en winstmarges worden verfijnd. Op deze manier kan de cybercrimineel potentiële doelen beoordelen, wat de kans op succes en de opbrengst van de aanvallen aanzienlijk kan verhogen. In de toekomst — en eigenlijk nu ook al, afhankelijk van het beschikbare budget — kunnen cybercriminelen zelfs door gen-AI gegenereerde teksten met tekst-naar-spraak-technologieën in audio omzetten. Hierdoor kunnen zowel de dader als het virtuele slachtoffer van de ontvoering (een stemkloon van een echt individu) volledig in de digitale wereld bestaan. Als deze audiobestanden vervolgens via grootschalige beldiensten worden verspreid, kan het bereik en de effectiviteit van virtuele ontvoeringen enorm toenemen.

Real-life voorbeelden van virtuele ontvoeringen

In april van dit jaar kreeg Jennifer DeStefano, een inwoner van Arizona, een angstaanjagend telefoontje van iemand die zei haar 15-jarige dochter ontvoerd te hebben. De ontvoerder eiste een losgeldbedrag van maar liefst $1 miljoen en dreigde met gruwelijke daden, waaronder het drogeren en verkrachten van de dochter, als ze niet zou gehoorzamen. Wat vooral verontrustend was, was de bekende stem van haar dochter die op de achtergrond smeekte, huilde en schreeuwde. Hoewel de aanvaller weigerde de moeder rechtstreeks met ‘haar dochter’ te laten spreken, werd het geëiste bedrag na wat onderhandelen verlaagd naar $50.000. Gelukkig ontdekte DeStefano op tijd dat het om een fictieve kidnapping ging en dat haar daadwerkelijke dochter veilig was. De politie werd onmiddellijk gewaarschuwd en bevestigde dat het hier inderdaad ging om de steeds populairder wordende virtuele ontvoeringstactiek.

Een ander voorbeeld van een nietsvermoedende persoon die het slachtoffer werd van een virtuele ontvoeringspoging is dat van Larry Magid, een techjournalist en de CEO van een bedrijf dat zich specialiseert in online security. Ondanks zijn expertise op het gebied van online oplichting en smartphonefraude, werd Magid toch misleid door een oproep die leek te komen van het nummer van zijn vrouw. Na een huilende stem, waarvan hij aanvankelijk dacht dat het zijn vrouw was, hoorde hij de stem van een man. Deze deed zich eerst voor als politieagent en vervolgens als een vermeend lid van een drugskartel. De oplichter beweerde de vrouw van de journalist in San Francisco te hebben ontvoerd, de stad waar ze die ochtend naartoe was gereisd, en eiste een losgeldbedrag van $5.000. Hoewel de oplichter erop stond niemand anders bij de zaak te betrekken, slaagde de journalist erin tijdens het gesprek stiekem 911 te bellen, waardoor de operator kon meeluisteren en contact kon opnemen met de lokale politie. De oplichter probeerde Magid verder onder druk te zetten door hem te bevelen in de auto te stappen, vermoedelijk om hem te dwingen mee te werken. Na meer dan tien angstaanjagende minuten hing de oplichter op, omdat hij voelde dat Magid zich niet zou laten overtuigen. Die politieagenten die naar het huis van de journalist waren gestuurd en zijn vrouw in San Francisco probeerden op te sporen, bevestigden uiteindelijk dat er sprake was geweest van een poging tot (virtuele) ontvoering. En hoewel de vrouw van Magid veilig was, was het voor beiden een zeer verontrustend incident. Terugkijkend op wat er was gebeurd, vond de journalist het vooral enorm verontrustend hoe overtuigend de tactieken waren – vergelijkbaar met methoden die op de FBI-website omschreven worden.

Hoe ziet de toekomst van cyberontvoering eruit?

In de nabije toekomst zullen cybercriminelen steeds vaker gebruikmaken van  geavanceerde profileringstechnologieën om databases te creëren met potentiële lucratieve doelwitten. Dit helpt hen met het automatiseren van hun plannen – een beetje te vergelijken met zakelijke hoe cold-callingprocessen en -strategieën. Op het dark web is het voor criminelen eenvoudig om toegang te krijgen tot sim-jacking-tools, gestolen inloggegevens en illegale transactiemakelaars. Virtuele ontvoering combineert AI-technieken met elementen van zowel onschuldige marketingmethoden als kwaadaardige phishingpraktijken. Deze AI-gedreven afpersingstactiek waarbij misbruik gemaakt wordt van emoties, evolueert op een manier die lijkt op de trends die we bij ransomware-aanvallen ook zien. In tegenstelling tot traditionele oplichting wordt er bij virtuele ontvoering gebruikgemaakt van audio- en visuele content om slachtoffers te manipuleren, en deze content wordt doorgaans niet door beveiligingssoftware gemonitord.

Naarmate netwerken in de komende jaren verder evolueren en beter inzicht krijgen in datacontexten, kunnen beveiligingssystemen diverse telemetriemethoden inzetten om geavanceerd datamisbruik te herkennen en bestrijden. Systemen die ‘datacontextbewust’ zijn, kunnen beslissingen nemen door te kijken naar de relatie tussen stukken data. Een systeem met meerdere lagen dat identiteitspatronen herkent, kan mogelijk bepalen of de telefoon van een vermeend virtueel ontvoeringsslachtoffer op een normale manier wordt gebruikt – wat de ingebouwde versnellingsmeter van het toestel kan detecteren – iets dat onwaarschijnlijk is als de persoon daadwerkelijk is ontvoerd. Wanneer slachtoffers toegeven aan eisen en losgeld betalen, stimuleren ze, vaak onbedoeld, cybercriminelen om andere mensen te blijven aanvallen, net zoals bij andere vormen van afpersing. Daarnaast zorgt de betaling ervoor dat zijn of haar gegevens in een database van ‘lucratieve doelwitten’ terechtkomen, die vervolgens weer aan andere criminelen worden verkocht. Het is duidelijk dat dit een eindeloze cyclus van cybermisbruik in stand houdt.

Naarmate virtuele ontvoeringen toenemen, passen cybercriminelen hun traditionele losgeldstrategieën aan door steeds vaker gebruik te maken van geavanceerdere media als spraak, video, en opkomende virtuele omgevingen als de metaverse. Deze geavanceerde high-context communicatiemethoden zijn ingewikkelder dan wat reguliere netwerkbeveiliging aankan en als gevolg hiervan neemt de vraag naar beveiligingsmethoden die de identiteit van gebruikers herkennen toe. Naarmate deze vorm van oplichting toeneemt, worden er ook meer gegevens gegenereerd. Door deze data te analyseren kunnen we mogelijk meer geavanceerde identiteitsbewuste beveiligingssystemen ontwikkelen.

Hoewel deze geavanceerde vormen van oplichting complex zijn, bieden ze ook nieuwe mogelijkheden. Naarmate cybercriminelen hun tactieken en technologieën verfijnen, zullen beveiligingsmethoden zich ook ontwikkelen, ondersteund door gegevensanalyse en vooruitstrevende herkenningstechnieken. Om de groei van virtuele ontvoeringen tegen te gaan, is het essentieel dat technologiebedrijven, wetshandhavers en cybersecurityexperts de handen ineen slaan en samenwerken aan vooruitstrevende, op data gebaseerde beveiligingsoplossingen. In onze steeds verder digitaliserende samenleving is het van groot belang om alert te blijven en cyberdreigingen steeds een stap voor te zijn, zodat we iedereen beter kunnen beschermen.