La inteligencia artificial ya es capaz de emular las voces de cualquier persona. Bad Bunny ha explotado contra la canción que se generó con su voz, pero los riesgos van más allá, principalmente por la posibilidad de una suplantación de identidad. Así es como se detecta un «deepfake» de voz
01 ene 2024 . Actualizado a las 10:29 h.La letra era más bien loca, pero lo cierto es que tanto el ritmo como sobre todo la voz sonaban exactamente igual que Bad Bunny. El artista estallaba hace unas semanas contra quienes se estaban divirtiendo con su canción falsa, que había sido generada gracias a la inteligencia artificial. Las posibilidades que se abren en lo que a emulación de voz se refiere son amplias, incluyendo también la ciberdelincuencia. El primer caso conocido de un delito utilizando esta tecnología se remonta al 2019, cuando unos criminales utilizaron la IA para emular la voz del director general de una compañía energética ubicada en el Reino Unido para intentar robar más de 200.000 euros. Estas son cinco claves para evitar que te cuelen un deepfake.
Qué es un «deepfake»
Podría traducirse a castellano como ultrafalsificación y es básicamente un vídeo, una imagen o un audio generados artificialmente y que emulan a una persona. Uno de los más conocidos cuando esta tecnología comenzó a acelerar su desarrollo es el del expresidente Obama que la Universidad de Washington fue capaz de generar hace ya seis años utilizando unas 14 horas de imágenes del que fue el presidente de los Estados Unidos.
Es decir, un deepfake permite colocar a una persona en una situación inexistente e incluso que diga cosas que nunca ha pronunciado, con todas las implicaciones que eso conlleva. Una de las más obvias es la pornografía. La cantante Rosalía denunciaba hace unos meses que habían generado una imagen suya desnuda, y poco tiempo después, Laura Escanes descubría que existían enlaces en Internet que llevaban a fotografías pornográficas con su imagen editadas gracias a la inteligencia artificial.
Open AI, la empresa matriz de ChatGPT, ya ha mostrado una app que permite generar voces a partir de texto y que da la posibilidad de escoger entre distintos timbres, lo que viene a demostrar, según explican desde la empresa de ciberseguridad y privacidad digital Kapersky, que la tecnología está evolucionando a gran velocidad, «con lo que esto supone para la seguridad».
¿Cómo se genera?
Todavía no es tan sencillo. Según explican desde Kapersky, la creación de deepfake de alta calidad es un proceso todavía costoso. Se necesitan, primero, muchos datos y cuanto más diverso sea ese juego de datos, más realista es el deepfake que se puede generar. Por ejemplo, para una fotografía falsa son necesarias imágenes tomadas desde diferentes ángulos, con diferentes brillos e iluminación y con distintas expresiones faciales.
Además, es necesario un softear específico una alta capacidad de computación. «Bajar un software gratuito e intentar hacer un deepfake en el ordenador de casa solo produce resultados poco realistas», afirman desde Kapersky.
El año pasado, un ejecutivo de la mayor plataforma de criptodivisas, Binance, comenzó a recibir mensajes de agradecimiento por una reunión a traves de Zoom a la que nunca había acudido. A través de imágenes públicas, los ciberatacantes habían sido capaces de generar un deepfake y utilizarlo durante la reunión online.
En el caso de videollamadas falsas, la generación de deepfakes es todavía más complejo, porque obligan no solo a generar una imagen real, sino a crearlo on line y mantener su calidad sin artefactos perceptibles. Existen programas que permiten hacer deepfakes de videollamada, pero para hacer un clon de una persona preprogramada, y la elección por defecto suele limitarse a actores famosos, ya que hay muchas imágenes suya en Internet.
¿Son muy habituales?
Por ahora es un proceso bastante costoso, pero lo cierto es que ya ha habido intentos de crear deepfakes utilizando modelos generativos, que permiten no solo cambiar caras, sino sustituir objetos de la imagen por casi cualquier cosa.
Aunque no es muy habitual el uso criminal del deepfake, existen casos, como del que alertó en octubre Tim Draper, fundador de varios fondos de capital de riesgo.Había una versión falsa de su voz que se utilizaba para actividades fraudulentas, ya que los estafadores se hacían pasar por el para solicitar el envío de criptomonedas aprovechándose de sus altos conocimientos en inversión.
Consejos para detectar un «deepfake» de vídeo
Desde Kapersky destacan primero que el eslabón más débil de la cadena de seguridad ees el del factor humano, con lo que lo primordial es formar a las personas en materia de ciberseguridad, informarlas de la posibilidad de que se produzcan fraudes utilizando inteligencia artificial e incluso mostrar y analizar algunos ejemplos.
Existen claves que permiten detectar si el vídeo o la imagen que nos están enviando es real o solo realista. Entre los puntos en los que hay que fijarse, Kapersky destaca los siguientes:
- Un movimiento de ojos poco natural.
- Expresiones faciales y movimientos artificiales.
- Un color de piel extraño o un pelo poco natural
- Rostros demasiado lisos
- Una posición un poco extraña de los rasgos faciales
- Cejas dobles
- Falta de emoción
Además, es interesante fijarse en si hay algún tipo de incoherencia en el discurso y también si no están sincronizados el audio y el vídeo o el movimiento de los labios no se corresponde con lo que se está escuchando, así como a la nitidez de la imagen. Algunas de estas cuestiones se pueden observar en este deepfake del actor Morgan Freeman.
Aunque parece efectivamente Morgan Freeman, hay cierta artificialidad tanto en el lenguaje corporar como en las expresiones faciales e incluso en el modo en el que se mueven los labios.
Cómo detectar un «deepfake» de voz
Igual que existen los deepfake de vídeo, se puede falsificar solo la voz. Existen ya series cuyo argumento se basa precisamente en el uso de audios falsos, pero no hay que pensar en el ámbito de la creación para encontrarse con estafas basadas en voz creada por inteligencia artificial. Ya en el año 2020, el director de la filial Hong Kong de una empresa japonesa recibió la llamada de alguien que reconoció como el responsable de la empresa matriz, que le explicaba que estaban a punto de hacer una adquisición, por lo que necesitaba transferencias por valor de 35 millones. Como todo parecía correcto, el hombre inició el proceso, pero en realidad la voz que estaba escuchando había sido generada por inteligencia artificial.
En este caso, también es posible poner atención para detectar posibles incongruencias y así detectar que la voz que escuchamos no es real, sino que ha sido generada con un programa informático.
Lo primer es escuchar atentamente lo que dice la persona que intenta comunicarse con nosotros. Si la voz suena con mala calidad, tiene ruidos o incluso un toque robótico, es mejor no confiar en ella.
Otra manera de detectar si se trata de un deepfake es plantear cuestiones que se salgan del guion. Entre los ejemplos que pone Kapersky está por ejemplo preguntar al interlocutor por su color favorito, algo que puede descolocar al ciberdeluncuente, porque no es una cuestión que suela salir a relucir en este tipo de fraudes. Lo más probable, explican desde la empresa de ciberseguridad, es que haya cierta pausa antes de la respuesta a pesar de que el ciberatacante intente contestar cuanto antes para evitar ser descubierto. Ese retraso es también un indicativo de sospecha de un deepfake.
En cualquier caso, Dmitry Anikin, científico de datos senior de Kapersky, aconseja no obsesionarse con este tipo de amenazas« y estar continuamente buscando voces falsas». Aunque es poco probable con la tecnología actual crear una voz que no se pueda reconocer como artificial, «hay que ser conscientes de las amenzas que se ciernen y prepararse para el futuro».
Las personas expertas en el campo de la inteligencia artificial lo tienen claro: la tecnología, en sí misma, es inocua, y se puede utilizar tanto para el bien como para el mal. Por eso a la vez que se desarrollan los procesos que permiten mejorar los deepfake, las grandes compañías, como pueden ser Facebook o el antigua Twitter, están poniendo en marcha proyectos que permiten, precisamente, detectar imágenes, vídeos y voces generadas de manera artificial y así poner coto a los bulos y las noticias falsas.
«Los deepfake serán muy pronto una realidad», alerta Dmitry Anikin.