Alertan de una estafa efectuada con inteligencia artificial: clonan la voz de tus padres
El algoritmo de Microsoft Vall-e permite clonar la voz de cualquier persona con tan solo unos segundos de escucha. A trav¨¦s de esta t¨¦cnica, se produjeron los primeros casos de estafa.
Las tradicionales v¨ªas para acometer estafas siempre han sido el correo electr¨®nico, el Whatsapp o el SMS. Ahora, se suma a estos soportes la inteligencia artificial, mediante algoritmos que permiten clonar la voz de una persona con s¨®lo unos segundos de escucha, como es el caso de Vall-e.
El ¨²ltimo caso llamativo, y del que se hizo eco el ¡®Washington Post¡¯, fue el de Ruth Card, una mujer candiense de 73 a?os que s¨®lo esperaba la llamada de su nieto Brandon. Sin embargo, la llamada no fue de su familiar sino de una voz que a la de su nieto y le comunic¨® la necesidad de pagar una fianza para liberar a su nieto, supuestamente detenido. Tanto Card como su marido acudieron a su entidad bancaria para sacar hasta 2.000 euros en efectivo.
Fue cuando acudieron a una segunda sucursal para sacar m¨¢s dinero, el momento en el que desde el banco le advirtieron de la posibilidad de que fuesen estafados, y que ya hab¨ªan padecido otras personas. ¡°Est¨¢bamos convencidos de que est¨¢bamos hablando con Brandon. Nos enga?aron¡±, se apresur¨® a decir esta mujer canadiense. A¨²n as¨ª, no fue el ¨²nico testimonio de estas caracter¨ªsticas.
Benjamin Perkin fue otro de los grandes damnificados de esta estafa. Seg¨²n inform¨® el mencionado diario norteamericano, este ciudadano de 39 a?os vio c¨®mo sus padres cayeron en la trampa y perdieron de un plumazo una elevada cantidad de dinero al pensar que, al otro lado del tel¨¦fono, se encontraba su propio hijo y no otra persona que hab¨ªa clonado su voz.
As¨ª funciona Vall-e, la inteligencia artificial que permite clonar voces
Con respecto a Vall-e, al igual que sucede con otras tecnolog¨ªas como ChatGPT, es la nueva inteligencia artificial generativa de Microsoft, y permite clonar la voz de una persona a partir de un clip de audio de tan solo tres segundos. Se trata de un modelo que ha sido entrenado con 60.000 horas de habla en ingl¨¦s, y dispone de una capacidad de aprendizaje m¨¢s veloz y mayor.
Puede recoger la informaci¨®n del texto y del audio, para transformarla as¨ª en una locuci¨®n de voz que no s¨®lo exprese lo que dice, sino que tambi¨¦n permita mantener el contexto de la frase que se pronuncia. Asimismo, se adapta muy bien a todo tipo de mensajes. Este algoritmo sucedi¨® a otros de la compa?¨ªa como SAM (Speech Articulation Module por sus siglas en ingl¨¦s), que cumpl¨ªa las mismas funciones que Vall-e pero en Windows XP.