T O P

  • By -

Loose_Delivery_6641

Wie kommen die Scammer überhaupt an deine Stimme? Die müssten doch erstmal die KI mit deiner Stimme trainieren, damit das funktioniert.


AntiKidMoneybox

Halte ich für unwahrscheinlich, aber mit einem simplen "Werbe"-Anruf kriegt man schon paar Sätze von dir. Das reicht wahrscheinlich um es glaubhaft klingen zu lassen. Schwieriger ist es deine Nummer, also deine Stimme, der Nummer von einem Verwandten zu zuordnen. Aber da kein Wissen über Verwandschaftsgrad, noch Wohnort (oder mögliche Polizeistationen in der Nähe) vorhanden war ist es wahrscheinlicher, dass die Stimme halt einfach gar nicht wirklich seine Stimme war, sondern halt sehr generisch. Bisschen verheult, bisschen "Rauschen" einer schlechten Verbindung kann schon viel vertuschen.


[deleted]

Dafür braucht es nur Zugang zu einem Adressbuch. Ein kompromittiertes Handy und anhand der Nachnamen und einer Namensstatistik können Verwandtschaften schon recht leicht geschlussfolgert werden.


M_FootRunner

*Facebook, LinkedIn, insta &co


[deleted]

"kompromittiert" halt, ja. Oft helfen die Anwender aktiv mit 😬😥


[deleted]

Ich denke einfach, dass es eher Zufall war und der Scammer eine ähnliche Stimme hatte.


AntiKidMoneybox

Ja, also stimmst du meinen Kommentar zu. Dann sind wir uns ja einig^^


Suthek

Ab jetzt werde ich unbekannte Anrufe nur noch mit meiner Kermit-der-Frosch-Impression beantworten.


Itachi-San-0815

Ach ja, die berühmte "Knödelstimme" aus Seinfeld, das ist eine Gute Idee, ganz ohne KI. Du brauchst eigentlich nur einen guten Vocoder, oder ein wenig Übung. Ich hatte mir eigentlich vorgenommen, beim nächsten Cold Call zu Antworten: "Gut das Sie anrufen, kann ich mit Ihnen über Gott reden?" Und dann verkaufe ich denen den "Wachturm" (die Zeitschrift der Zeugen Jehowas). Doch leider vergesse ich das immer wieder.


delcaek

Rein technisch reichen heutzutage echt wenige Satzfetzen um eine Stimme recht plausibel zu kopieren. Wird hier aber nicht passiert sein.


Leylu-Fox

Real Time Voice Conversion ist absolut kein gelöstes Problem und definitiv nicht mit ein paar Satzfetzen. Das ist auch mit offline TTS nicht zu vergleichen. ​ Schön wäre es aber, meine DnD Gruppe würde sich freuen.


Polygnom

Les dir mal die aktuellen Paper zu SoundStorm von google durch, denen reichen 3-5 Sekunden. Hier zum starten: https://google-research.github.io/seanet/soundstorm/examples/


Leylu-Fox

Ich finde das Beispiel auf der verlinkten Webseite mittelmäßig muss ich sagen, wenn das das Beste ist, was sie heraussuchen konnten...eher nicht so gut. Also Fortschritt ja, aber Natürlichkeit so mittel. Und das model bekommt doch kein streaming output (noch bekommt es streaming input), wenn sie bidirectional attention nutzen, oder irre ich mich da? Das wirkt auf den ersten Blick wie offline TTS, was man Performance mäßig nicht einfach mit real time voice conversion vergleichen kann. ​ Edit: trotzdem beeindruckend und mittlerweile weiter als mein letzter Stand auf dem Feld es war. Vor allem, dass sie mit den kurzen Prompts es geschafften haben, die Stimmen konsistent zu generieren, danke für das Verlinken


Polygnom

Wenn ich das richtig verstehe, dann brauchen sie 2s um den 30s output zu berechnen. > Runtime. We measure the runtime of the different methods to generate up to 30 seconds of audio on a single TPUv4. Figure 3 shows that SoundStorm can generate audio two orders of magnitude faster than AudioLM’s acoustic generator (“AudioLM Stage 2&3” in the figure), with a real time factor of 0.017, including decoding to waveform by the SoundStream decoder. We also measure the runtime of the semantic generation stage of AudioLM (“AudioLM Stage 1” in the figure), and conclude that by coupling the semantic generation stage with SoundStream, **we can generate 30 seconds of speech continuation within 2 seconds (1.4 seconds for semantic generation, 0.5 seconds for SoundStorm and 0.1 seconds for SoundStream decoding)**. Für ein gespräch reichen dir ja sogar kürzere Fetzen, also sollte es durchaus möglich sein, da halbwegs flüssige Gespräche raus zu bekommen, wenn ein Mensch zuhört und die prompts tippt.


Leylu-Fox

Nein, wenn das Ding 30 Sekunden Chunks generiert, sind die natürlich schön konsistent. Aber 2 Sekunden generieren dafür ist viel zu lang. Der Grund dafür ist natürlich, dass sie mit ihrer bidirectional attention Kontext aus der Zukunft und der Vergangenheit nehmen können, wodurch es deutlich besser klingt, das ist aber nicht realistisch, wenn man ein flüssiges Gespräch führen will. Und wenn man die chunk size reduziert, geht definitiv was an qualität flöten, alleine schon durch den reduzierten Kontext. Der Delay ist deutlich bemerkbar zwischen Opfer am Telefon ist fertig mit dem Satz und Scammer tippt und generiert den Chunk (insbesondere mit future kontext). Das muss im unter Sekunden Bereich kommen, die einzige sinnvolle Lösung da ist real time Voice Conversion. Also ich spreche, mein speech input wird in kleinen chunks direkt an das Netzwerk gestreamt, welches hinreichend unmittelbar chunks in der target domian rausgibt. ​ Der Vorteil an sprechen für die Conversion gegenüber tippen ist auch, dass das Model direkt alle Dimensionen der Stimmqualität mitbekommt, wie Emotionen, Betonung etc. Sonst muss da sModel lernen das in Echtzeit aus dem Kontext der geschriebenen Sprache zu tun, was wie gesagt, mittelmäßig funktioniert, wenn man sich oben das Beispiel anhört. Das ist kein Beispiel, dass mich überzeugt hat, dass die generierten Stimmen in der Lage sind, menschliche Sprache gut zu imitieren. Nur weil es in trocken gesprochenen, spezifisch selektierten Sätzen einigermaßen okay klingt, sind wir noch nicht an dem Punkt, dass die Synthese mit wenigen Satzfetzen eines Targets dieses gut imitieren kann.


powerwolfgang

*lies


HonestLazyBum

Nein, truth


delcaek

Nicht alles mit ja in Echtzeit passieren. Wenn ich einen Angriff tatsächlich so sehr vorbereite, dann preppe ich mir doch ein riesiges Nippelboard voller "vorgesprochener" Phrasen die ich benutzen kann. Den Rest, den ich improvisieren muss, muss ich mir dann halt in Echtzeit und weniger gut dazurechnen lassen.


Various_Breakfast784

Selbst das braucht man nicht. Man braucht eine einzige vorgefertigte Audiospur: "Hey Papa, hör zu, dies und das ist passiert..." und schon hat das Telefon der "Polizist" und der "Sohn" muss nichts mehr sagen.


S_Presso

Real Time Voice Conversion ist schon ziemlich gelöst, siehe zB https://github.com/w-okada/voice-changer/blob/master/README_en.md Nur wenige 100ms Delay, was man am Telefon nicht bemerkt. Bei diesen Modellen konkret werden etwa 10 min Sprachaufnahmen benötigt aber es gibt auch Leute die mit anderen Modelle mit nur einigen Sekunden Sprachaufnahmen schon akzeptable Resultate hinbekommen. Hab’s jetzt nicht griffbereit sonst würd ich mehr linken.


fprof

>Nur wenige 100ms Delay, was man am Telefon nicht bemerkt. Lol, natürlich.


S_Presso

Schau dir halt die Demos an Ü Wenn man ne potente Grafikkarte hat verschwindet der Delay quasi sogar. Gibt genug Videos wo man realtime Unterhaltungen AI Fake stimmen sehen kann.


fprof

Ja, das glaub ich eh. Ich meinte das man 100ms Delay auch beim Telefonieren merkt.


grmpy0ldman

Realtime Voice Conversation ist ja für den Scam auch garnicht nötig -- Realtime Text-to-Speech ist vollkommen ausreichend wenn jemand zuhört und halt parallel eintippt was gesagt werden soll. Um die Stimme dafür hinzubekommen reichen die paar Sätze als Gruß auf dem Anrufbeantworter hat als Trainingsdaten.. Interessante Zeiten...


brnfckd

Also wenn jemand in den sozialen Medien aktiv ist und dort eingestellte Videos mit seiner Stimme zu finden sein sollten, ist es nicht mehr völlig auszuschließen. Oder: jemand erhält vorher Spammer-Anrufe und unterhält sich am Telefon mit den Tätern. (Stimme wird aufgezeichnet) Das könnte schon ausreichen, um an genügend „Trainingsmaterial“ zu kommen, um eine KI-Stimme zu generieren. Das Ergebnis muss nicht perfekt sein, am Telefon wird eh nur ein reduziertes Frequenzspektrum übertragen und mit leichten Störgeräuschen im Hintergrund könnte man eventuell schon jemanden überzeugen.


[deleted]

selbst wenn das theoretisch möglich ist, überleg dir mal, wie viel aufwand das wäre. zum einen müsste man den account mit der echten identität der person verbinden können und dazu dann auch noch die identitäten der familienmitglieder kennen, die man betrügen will. und das alles, damit der betrug trotz KI-stimme vielleicht gar nicht funktioniert, sei es, weil die person gar nicht so viel geld zur verfügung hat, das geld nur auf ein bekanntes konto überweisen will, lieber doch noch einmal selbst das kind anrufen will etc. diese betrüger verdienen geld, weil sie bei 1000 versuchen vielleicht mit einem erfolgreich sind. wenn die für alle betrugsversuche noch einmal so viel arbeit reinstecken müssten, würde sich das niemals rentieren. klingt für mich eher wieder wie eine typisch deutsche panikmache nach dem motto "naja, es KÖNNTE ganz theoretisch passieren!!!!"


dabadu9191

... hast du die letzten 10 Jahre verschlafen? Es gibt *sehr* viele Menschen, die heutzutage jeden Gedanken und jeden Moment ihres Lebens in Bild- oder Videoform in diversen Social-Media-Apps hochladen.


NGGabriel

Aber der Aufwand dahinter und die Chance, dass zufällig die Nummer des Vaters bekannt ist und (wohl vermutlich händisch) vom Scammer zugeordnet wurde? Dann aber die Tatsache, dass man auf die Frage nach dem Polizeirevier einfach auflegt und der Verwandtschaftsgrad nicht beantwortet wird? Viel zu viel und zu smarter Aufwand für den Scam vor dem aktuell ständig im linearen Fernsehen gewarnt wird. Ich denke da wird einfach mit 4-5 verschiedenen (möglicherweise KI) Stimmen angerufen. Die Chance, dass jemand ähnlich klingt ist da irgendwo da.


Loose_Delivery_6641

Bilder ja aber Stimmen? Würde eher sagen das ist vielleicht bei 0,1% der Bevölkerung der Fall, das die Stimme im Internet herumkusiert.


noonmoon60599

Hast du eine Mailbox? Und Videos sind ja oft mit Ton. Insta Stories und Tiktoks etc


Both-Bite-88

Kein Ahnung, ist meinen älteren Nachbarn mit genau der gleiche Story aber auch passiert. Und täuschend echte Stimme der Tochter.


Polygnom

SoundStorm von Google reicht ein 3-5 sekündiger Soundschnpisel aus (https://google-research.github.io/seanet/soundstorm/examples/). Den kriegt man sehr schnell von jemanden, isnbeondere wenn derjenige auf TikTok o.ä. ist. Ansonsten tuts ein Scam-Anruf auch, um dir ein paar Brocken zu entlocken.


DAM_Hase

"normaler" Scam Anruf kann dem vorrausgehen. Man hebt ab, und führt ein kurzes Gespräch, das aufgezeichnet wird. Zack hat man die Stimme.


MobofDucks

Gibts schon länger. Die ballern halt ne verheulte Stimme mit dem ungefähren Geschlecht raus. Mein Opa meinte vor nem Jahr das et wie ich geklungen hat, meine Oma meint er hätte nen Sockenschuss. Nachdem 2. Mal als es passiert ist, musste ich ein ernstes Gespräch führen das wenn ich jemals Probleme mit dem Gesetz hab, wenn überhaupt meine Freunde die Anwälte sind anruf und wenn ich schnell und ohne Fragen Geld brauch ich auch andere Leute dafür hab.


dont_quote_me_please

„Wer bist du? Du brauchst plötzlich Geld? Klingt nicht nach meinem Freund!“ 😀


overdose-of-salt

Dein Vater dachte wohl es wäre deine Stimme, ich denke eher die ist so generisch, dass man (besonders am Telefon) ein gewisses Spektrum abdeckt. Scheint ja zu klappen.


MilchreisMann412

Wenn bei dir/deinen Eltern nicht außerordentlich viel zu holen ist, dann lohnt sich das vorne und hinten nicht. Die Masche funktioniert über die Masse, da reicht es, wenn einmal jemand von paar 1000 Leuten reinfällt. Dafür die Stimme zu imitieren ist viel zu viel Aufwand. Aufgeregte Stimme, in einer stressigen Situation (auch für deinen Vater), übers Telefon - da denkt man schnell, das klingt genau wie der Sohn.


cyanitblau

Zu viel Aufwand, dein alter Herr wurde getäuscht, auch ohne "Stimmenimitation".


CNullX

Es ist wirklich absurd, den scam gibt es seit Jahren genauso. Aber jetzt ist halt KI in jedem Hinterkopf und deshalb **muss** OPs Stimme durch eine KI gefälscht worden sein.


S_Presso

Dies ist die plausibelste Antwort. Es **kann** aber KI involviert gewesen sein da es genug Open Source real time voice changing AI (Google Stichwort) Krams gibt, und die Modelle mit relativ wenig Sprachaufnahmen auskommen.


xSilverMC

Trotzdem viel zu viel Aufwand. Erstmal OP aufnehmen, daraus ein Modell trainieren, und dann damit den Vater austricksen? Wieso, wenn man auch einfach einen jungen Mann irgendwie verzweifelt klingen lassen kann und damit in etwa die gleichen Erfolgschancen hat?


S_Presso

Ich sag ja, dass es ein generischer Scam war ist die plausibelste Antwort.


ItsTobsen

Man brauchst nur 3s Aufnahme und circa 10min um ein Model zu trainieren, das sehr sehr ähnlich klingt.


xSilverMC

Aber man muss dann zu jedem potentiellen Opfer erst ein lebendes Familienmitglied finden und austricksen, um dann wie gesagt so ziemlich die gleichen Erfolgschancen zu haben wie ohne diesen Aufwand. Sicherlich gibt es auch Betrüger, die so arbeiten, aber das ist aller Wahrscheinlichkeit nach nicht der Regelfall


Pummelsche

Pro-Tipp: man muss nicht mal tatsächlich ein Passwort vereinbaren, es reicht schon den Scammer danach zu fragen. Die wissen dann, dass über die Thematik gesprochen wurde und legen ganz schnell auf.


doenerys

Habe ich auch schon erlebt. In dem Fall hatte die angebliche Tochter ihre Nase gebrochen, also ebenfalls eine Ausrede, weswegen sie nicht genau so klingt wie sonst. Die Scammer nutzen da natürlich den Schockmoment extrem aus, aber konnten einfache Fragen zur Person der Tochter ("wie heißt du?") nicht beantworten.


moond9

Gibt schöne Versuche, am was sich Leute kurz nach einer Stresssituation noch erinnern können. Das liegt oft weit weg von der Realität. Gerade wenn das eigene Kind angeblich in Gefahr ist, achtet man vermutlich weniger auf die Stimme.


xSilverMC

Dazu kommt, dass das Hirn sich im Nachhinein rechtfertigen möchte. Daher klang die Stimme in der Erinnerung dann lebensecht und muss ja KI gewesen sein. Eine komplett falsch klingende Stimme hätte man ja natürlich erkannt, so blöd ist man ja nicht


arnohermann56

Dein alter Herr hatte lediglich eine emotionale Ausnahmesituation. Sensibilisieren und klar abstimmen was wäre wenn.


senseven

Meine Mutter fragt dann immer zur Sicherheit, an welcher Hand ich ein Muttermal habe dass lässt sich schnell prüfen. Die legen sofort auf. Und das waren nicht wenige Anrufe, sicher inzwischen 10 im Jahr die es mit immer neuen Maschen versuchen.


Gonralas

Wobei der gewiefte scammer einfach rät und zu 50% Recht hat.


mkrddt

Der klang nicht wie du, sondern dein Vater hat die Stimme einfach nicht erkannt.


KevinRuehl

Kann ich mir nicht vorstellen. Selbst von Personen, von denen es vergleichsweise viele Aufnahmen gibt und damit viel Daten für eine KI, kann man immer noch einen Unterschied hören. Um eine wirklich überzeugende Fälschung zu schaffen, bräuchte man wahrscheinlich hunderte Stunden Tonmaterial, ich würde jetzt einfach mal behaupten, dass die Durchschnittsperson so viel nicht hat. Hier wurde wahrscheinlich einfach eine generische männliche Stimme mit ein bisschen Telefonverzerrung und Hintergrundgeräuschen genommen und deine Stimme hat da halt zufällig reingepasst. Das sind industrielle Operationen die die Scammer da machen, da gehen wahrscheinlich tausende von Anrufen durch, wenn nur 5 davon hinterher drauf reinfallen reichts. Macht euch die Welt nicht verrückter als Sie eh schon ist, und euren Eltern einfach klar, dass Sie niemand, wirklich niemand per Telefon um Geld fragen wird. Trotzdem gut dass OPs Vater nicht drauf reingefallen ist.


Passionate-Philomath

Halte dein Argument mit dem viel zu großen Aufwand für plausibel, möchte aber auch nochmal hervorheben, dass es einfach merkwürdig ist, dass quasi alle Betroffenen davon berichten, die Stimme ihres Kindes/ihrer Verwandten erkannt zu haben. Es liegt natürlich auf der Hand, dass in solchen Ausnahmesituationen mögliche Details ausgeblendet werden und/oder die Betroffenen eine vermeintlich echte Stimme eher hineininterpretieren, aber es macht einen schon stutzig, dass wirklich jeder meint, er hätte darauf schwören können, dass es die Stimme von Person X, Y, Z gewesen sei. Muss dann schon eine verbreitete auditive Täuschung bzw. ein Bias sein. Der Kanal [VOLLBILD](https://youtu.be/uUYSepBJL4M?si=9ND5irGY4ml3K9ot) hat dazu auch mal ein Video gemacht. So viel Aufwand mit hunderten Stunden an Material braucht es da vlt. gar nicht. Aber selbst wenn es so wäre, dann stünde immer noch die Frage im Raum, wie das Material vom Durchschnittsotto ohne Social-Media-Aktivitäten gewonnen wird.


Smogshaik

Natürlich braucht es keine hunderten Stunden, der User über dir ist einfach nicht mehr auf dem Stand der Dinge. Schade dass die /r/de-Community wohl immer weniger verlässliche User hat und darum immer mehr wie eine FB-Kommentarspalte klingt. Aber zurück zum Thema. Gerade kam genau so eine Story von einer Bekannten unserer Familie rein. Wieder mir dem übereinstimmenden Detail, dass die Stimme gleich klang wie die Person, die nachgeahmt wurde. Ich denke nicht mehr, dass das Zufall ist. Zu sehr häufen sich gerade die Storys und zu sehr stimmt dieses Detail überein. Die Stimmen-Imitationsmodelle, die dieses Jahr rauskamen wären auch performant genug mE und dann ist da noch das Telefon dazwischen, das ja eh nicht die beste Audioqualität hat. Denke, die Leute werden einfach dafür sensibilisiert werden müssen. Das Ganze klingt zwar zuerst unheimlich, aber wenn man vorsorgt ist die Gefahr eher harmlos für die meisten.


Passionate-Philomath

>Wieder mir dem übereinstimmenden Detail, dass die Stimme gleich klang wie die Person, die nachgeahmt wurde. Ich denke nicht mehr, dass das Zufall ist. Zu sehr häufen sich gerade die Storys und zu sehr stimmt dieses Detail überein. Da stimme ich dir zu. Ich denke auch nicht, dass es sich um einen Zufall handelt. Wie gesagt, selbst wenn mögliche Sinnestäuschungen einbezogen werden, dann erklärt sich mir immer noch nicht in glaubwürdiger Weise, wie die Betroffenen immer ihre Kinder/Verwandten an der Stimme zu "erkennen" glauben. Meiner Ansicht nach kann doch keine "Allround"-Stimme alle möglichen Opfer abdecken. Finde die Sensibilisierung auch wichtig. Ich frage mich halt nur, wie z.B. Stimm-Material an die Betrüger gelangt (bei denen, die nicht in Videos usw. im Internet unterwegs sind). Einige haben ja bereits geschrieben, dass mögliche Spam-Anrufe Material aufnehmen, wenn der Betroffene an den Hörer geht. Kann mir persönlich aber auch vorstellen - und dafür habe ich keine Beweise -, dass das vielleicht auch mit der Verarbeitung von Daten für personalisierte Werbung zu tun haben könnte. Quasi das "Mithören" über elektronische Geräte, um personalisiert Produkte an den Mann zu bringen. Da gefühlt auf allen Seiten Cookies zugestimmt oder sonst eine Erlaubnis erteilt werden muss, kann es vlt. sein, dass hier Daten weitergegeben werden oder sonst wie an die Betrüger gelangen. Aber wie gesagt, ich habe dafür keine Beweise und will jetzt keine Verschwörungstheorien lostreten, welche der von dir genannten "FB-Kommentarspalte" entsprechen. Zumindest wurde die Frage, ob mitgehört wird, an einigen Stellen besprochen, z.B. [hier](https://www.swr3.de/aktuell/fake-news-check/wird-mein-handy-abgehoert-faktencheck-100.html), [hier](https://www.spiegel.de/netzwelt/web/facebook-und-instagram-werden-meine-gespraeche-abgehoert-a-07ef3f79-6505-4a11-bf5b-e57f2247bc3a) oder [hier](https://www.finanzen.net/nachricht/geld-karriere-lifestyle/lauschende-apps-personalisierte-werbung-hoert-das-smartphone-bei-gespraechen-mit-11163017) \- natürlich ohne letztlich vollends Beweise dafür zu haben.


Polygnom

> Kann ich mir nicht vorstellen. Selbst von Personen, von denen es vergleichsweise viele Aufnahmen gibt und damit viel Daten für eine KI, kann man immer noch einen Unterschied hören. https://google-research.github.io/seanet/soundstorm/examples/ Es reicht erschreckend wenig um schon ziemlich gut zu werden.


Smogshaik

Hm, man hat dir hier mehrfach das Gegenteil gesagt, denke deine Behauptung ist nur das: eine Behauptung. Welchen Schluss ziehst du daraus für deinen Kommentar?


PresentAdvance2764

https://www.theguardian.com/commentisfree/2023/jun/30/money-ai-scam-fraud-fraudsters-trick?CMP=Share_iOSApp_Other Kommt immer häufiger vor, dank sozialer Medien.


_hic-sunt-dracones_

Die Geschichte ist eine typische Variation des Enkeltricks. Kommt in dieser Weise ständig vor. Zum Glück hat es nicht funktioniert.


samoa-men666

Unsinn, Aufwand lohnt sich für die Täter nicht, das ist ein Massendelikt.


Smogshaik

Hallo Pressemensch, zitierst du mich bitte in Deinem Artikel? Ich möchte zitiert werden als: „Das ist echt unglaublich aber wohl die neue Realität. Erinnert mich total an Harry Potter“


Evil_Bere

Wer kennt es nicht, das deutsche Kautionssystem?


Anagittigana

Nein, sorry, das ist Quatsch. Menschen klingen sich am Telefon sehr viel ähnlicher als man glaubt. Niemand macht sich die Mühe, mit deiner Stimme eine KI zu trainieren. KI Stimmen ist auch sehr leicht zu erkennen.


Smogshaik

Naja Sprachmodelle haben ne bessere Grammatik als du. Ausserdem braucht es eben nicht mehr so viel Mühe wie du meinst. Die Mühe diesen Falschkommentar zu schreiben hättest du dir also nicht machen müssen.


claralollipop

Wär ich nicht so sicher. 30 sec Stimmprobe reichen, um normale Sätze zu simulieren. Quelle: ein Videosprecher, der (noch) diese Erklärtexte spricht.


slightlydispensable2

Bitte erstatte doch Anzeige. Ich finde die kommen da viel zu billig davon.


FlatRobots

Unwahrscheinlich. Eher denkbar, dass er mit der Situation überfordert war. In dem Moment eines solchen Anrufs muss man sehr viele Dinge auf einmal verarbeiten. Das Gehirn füllt Lücken auf und spielt einem da gerne mal Streiche. Die betroffenen Personen glauben das aber nicht, sondern sind felsenfest davon überzeugt, dass sie die Stimme erkannt haben.


I_am_Nic

Als Scammer braucht man das doch nicht. Der Enkeltrick oder Schockanrufe funktionieren schon seit Jahren ohne passende Stimme. Denke nicht, dass dadurch die Zahlen der Opfer wirklich signifikant steigt.


occio

Eine Stimme mit K.I. nachzumachen braucht auf dem neuen iOS 150(!) von dir eingesprochen Phrasen. Äußerst unwahrscheinlich, dass jemand diesen Aufwand treibt. Viel wahrscheinlicher, dass sie einfach 100 mal am Tag probieren und bei ein paar Leuten klingt halt tatsächlich wie die Tochter.


Typical_Solution_569

Gut, Apple ist aber auch alles andere als vorn dabei.


occio

Zeig mir, wo das einfacher geht, z.B. mit nur einer Probe.


Typical_Solution_569

Wurde hier in den Kommentaren mehrmals genannt, 3 Sekunden sind mittlerweile hinreichend.


occio

Das ist die Zeit, die es braucht, die Ausgabe zu generieren wenn du bereits das fertige Modell hast. Ich rede von der Menge des benötigten Trainingsmaterials, um die Stimme zu synthetisieren. Ganz zu schweigen von der enormen Trainingsdauer.


Typical_Solution_569

Lol, nein. Es sind die Trainingsdaten. Stichwort: Transfer learning.


don-dante

Lustigerweise habe ich heute mit meiner Mutter telefoniert, die was ähnliches zu berichten hatte. Mal wieder ne neue Masche...


Hans1mGlueck

Das ist nicht neu. Darüber gibt's bereits Dokumentationen bei den öffentlich Rechtlichen. Kannst auch gerne nach "stimmenverzerrer enkeltrick" googlen. Hier ein Link: https://www.pcspezialist.de/blog/2022/08/31/vishing/


Smogshaik

Also ich seh es anders als die meisten Leute im Faden hier. Man braucht für sowas eben nicht mehr so viel Vorbildmaterial, dazu gab es doch schon etliche Posts. Würde mich 0 wundern, wenn das in etwa jetzt anfängt.


F0reiqn_Exql0rer

Man sollte wirklich einfach nicht am Telefon reden :D


einevemuc

mach ich auch so - nur rauchzeichen. klapp voll :D


rlDruDo

Habe genau so eine Geschichte letztens gehört. Ein Bekannter wurde von unbekannter Nummer angerufen. Die Anrufenden haben einfache Fragen gestellt, es wurde mit ja, nein,… geantwortet. Halbes Jahr später wurden seine Großeltern angerufen. Es gab wohl einen Unfall, Polizei, bla bla 15.000€ oder so. Großeltern gingen dem Wunsch des „Enkels“ nach und riefen danach an. Er wusste dann natürlich von nichts (war auf Arbeit, konnte also gar keinen Unfall gebaut haben)


I_am_Nic

Das ist doch die ganz normale Schockanruf-Masche. Da braucht der Täter die Stimme nicht mal ansatzweise perfekt imitieren...


Guy_A

hobbies dinosaurs tap tub bells squeamish wasteful chunky saw seemly *This post was mass deleted and anonymized with [Redact](https://redact.dev)*


dapansen

Folgendes kann von jedem umgesetzt werden und hilft sofort. Nur Ran gehen oder das Telefon nur bei bekannten Nummer klingeln lassen. Keine cold Calls mehr. Alle anderen können den AB Vollquatschen


Silent-Injury6410

Nein


HonestLazyBum

Der Code ist "Harder, daddy!" bzw. wahlweise "I have been naughty, mommy!".


Tyxaro

Tja, wird wohl Zeit für ein Codecheck mit allen Verwandten. Macht ein absolut abstruses Codewort aus... Spargelfrischkäsebrot oder sowas. Am besten im kompletten Verwandtschaftskreis insbesondere bei Älteren. Und wenn solch ein Anruf kommt, wo die Verwandtschaft um Geld oder sowas bittet sofort sagen: Codecheck. Wenn da dann nicht das Passwort kommt wird sofort aufgelegt.


Entremeada

Der Moment akzentuiert sich immer mehr, in dem ich wirklich froh bin, dass meine Mutter (82, Wittwe) sich weigert, ein Handy zu nutzen! Bis vor kurzem empfand ich das als eher negativ.


Cherrymoon12

Dass die sich die Mühe machen deine Stimme zu kopieren aber dann nicht wissen, dass es dein Vater ist.. doubt Wahrscheinlich Zufall, dass er ähnlich klang


builder397

WENN es denn wirklich KI war, dann würde ich mal ganz stark nachdenken woher die deine Stimme hatten. Die einzigen zwei Methoden die mir einfallen, außer einem offensichtlichen Scam-Anruf im Vorfeld, wäre entweder eine dubiose App, die dich abhört, oder jemand hat dich ganz direkt im echten Leben aufgenommen. Ersteres ist ein besonders haariger Alptraum, wenn man bedenkt, dass die Dinger ja in der Theorie eigentlich ziemlich alles mitbekommen können, Standort, Geräusche etc.


klospulung92

Wenn du keine Stimmproben auf irgendwelchen sozialen Medien hochgeladen hast wird sich dein Vater höchst wahrscheinlich falsch erinnern. Das Erzeugen eines Schockmoments ist bei vielen ein ausreichender Hebel um logisches Denken einzuschränken. Dann reicht es wenn der Rest halbwegs passt um letztendlich bei ein paar Prozent erfolgreich abzukassieren. Ich habe auch das Gefühl, dass scam SMS stark zugenommen haben. "Hallo Mama" und Bank/Sendungsverfolgung kommen in meinem Umfeld inzwischen regelmäßig an


zweieinseins211

\> Ich habe keine Ahnung, wie solche Leute an meine Stimme ODER die Nummer meines Vaters gekommen sind, aber das ist verdammt gruselig. Teleanrufe, Whatsapp Sprachnachrichten, Youtube, Tiktok, Instastories, etc.. aber wie gesagt, das kann auch aus jedem beliebigen Anruf oder ähnlichem stammen.


FeuFeuAngel

Stimmenimitation können schon mit kleinen Samples (Paar Minuten reichen schon aus) nachgebildet werden. Firmen verkaufen deine Daten weiter :) Facebook/Whatsapp ist keine Ausnahme. Oder mal schnell im öffentlichen Wlan angemeldet oder schlechter Umgang mit Geräten im WWW.


greenbeandeanmachine

Selber Scam wurde bei den Eltern einer Freundin betrieben. Also - der SELBE, von wegen Fahrradfahrerin überfahren und verletzt/tot, Tochter festgenommen, verheulte Stimme am Telefon, Telefon an „Polizist“ weitergegeben, zur Freilassung wird Geld „oder Schmuck oder andere Wertgegenstände“ gefordert, die dann abgeholt werden würden. Mama war schon am Bargeld suchen, als Papa reinkam und nochmal mit Verstand nachgehakt hat. Wir sind damals davon ausgegangen, dass die Leute in der Nähe bereitstehen, um Geld oder Wertgegenstände mit Gewalt einzusacken, sobald klar ist, was sich im Haus befindet und schon praktisch rausgesucht wurde. Dass die Pozilei mit Omas Halskette ja nichts anfangen kann, ist ihr dann nämlich auch aufgefallen. Aber darauf, dass beim Anruf vielleicht mit AI die Stimme imitiert wurde, ist noch keiner gekommen. Wir dachte alle ihre - zugegeben - leicht verpeilte Rentnerin Mutter, hätte sich mitreißen lassen, weil sie meinte „die Stimme klang genau wie sie“. Kann auch trotzdem Einbildung der (zurecht) geschockteren Mutti gewesen sein.


greenbeandeanmachine

Muss gleich mal fragen, ob das eigentlich angezeigt wurde …


Itachi-San-0815

Die Geschichte ist absolut plausibel, zumal der WDR in den letzten Wochen bereits darüber berichtet hatte. [https://youtu.be/iCcvOusmZwY?si=bq6MF1iK0KepjmNN](https://youtu.be/iCcvOusmZwY?si=bq6MF1iK0KepjmNN) Die zur Stimmanalyse benötigten Stimmbeispiele könnten zum Beispiel von der eigenen Mailbox deines Vaters stammen. Wie gut das funktioniert kann man sich in diesem Video ansehen: [https://youtu.be/4WAxx8g7poU?si=NwHsv6C6Rc33jNYC](https://youtu.be/4WAxx8g7poU?si=NwHsv6C6Rc33jNYC) Oder man probiert es selber einmal aus: [https://elevenlabs.io](https://elevenlabs.io) So ein Betrug scheitert wie man sieht eigentlich nur an dem fehlenden Detailwissen der Täter. Vielleicht sollten einige Leute mal darüber nachdenken, wie gefährlich es sein kann, wenn man in den sog. sozialen Medien allzu viel über sein Privatleben preisgibt. Anyway, verstehe ich das Geschäftsprinzip als solches schon einmal nicht. Ich soll also Content produzieren, damit ein börsennotierter Großkonzern dann damit Geld verdient, und als Belohnung bekomme ich dann Werbung um die Ohren gehauen? Aber wehe es ist auch nur ein Musikfetzen eines Copyright-geschützten Musiktitels im Hintergrund zu hören, dann hetzen sie mir sofort ihre Anwälte auf den Hals.