Un implante cerebral transforma los pensamientos de una mujer en habla en tiempo casi real
SOCIEDAD
La mujer rompió su silencio después de 20 años sin hablar gracias a una interfaz entrenada con inteligencia artificial que registra su actividad cerebral cuando intenta decir las palabras y las reproduce
31 mar 2025 . Actualizado a las 17:51 h.Casi dos décadas después de sufrir un derrame cerebral a los 30 años que la dejó incapaz de hablar, una mujer de Estados Unidos recuperó la capacidad de convertir sus pensamientos en palabras en tiempo real gracias a un nuevo proceso de interfaz cerebro-computadora (BCI). La neuroprótesis, que podría restaurar el habla de forma natural a personas con parálisis severa, ha sido desarrollada por investigadores de las universidades de Berkeley y de California, en San Francisco. El hallazgo se ha publicado en Nature Medicine.
Este trabajo resuelve el problema persistente de la latencia en las neuroprótesis del habla, el lapso de tiempo entre el momento en que un sujeto intenta hablar y el momento en que se produce el sonido. Utilizando avances recientes en modelado basado en inteligencia artificial, los investigadores desarrollaron un método de transmisión que sintetiza señales cerebrales en voz audible casi en tiempo real.
Esta tecnología representa un paso crucial para facilitar la comunicación a las personas que han perdido la capacidad de hablar. El estudio cuenta con el apoyo del Instituto Nacional de la Sordera y Otros Trastornos de la Comunicación (NIDCD) de los Institutos Nacionales de la Salud.
«Nuestro enfoque de streaming incorpora la misma capacidad de decodificación rápida de voz de dispositivos como Alexa y Siri a las neuroprótesis», afirmó Gopala Anumanchipalli, profesor adjunto Robert E. y Beverly A. Brooks de Ingeniería Eléctrica y Ciencias de la Computación en UC Berkeley y coinvestigador principal del estudio. «Usando un algoritmo similar, descubrimos que podíamos decodificar datos neuronales y, por primera vez, permitir la transmisión de voz casi sincrónica. El resultado es una síntesis de voz más natural y fluida».
«Esta nueva tecnología tiene un enorme potencial para mejorar la calidad de vida de las personas que viven con parálisis grave que afecta el habla», afirmó Edward Chang, neurocirujano de la UCSF y coinvestigador principal del estudio. Chang dirige un ensayo clínico en la UCSF cuyo objetivo es desarrollar tecnología de neuroprótesis del habla mediante conjuntos de electrodos de alta densidad que registran la actividad neuronal directamente desde la superficie cerebral. «Es emocionante que los últimos avances en IA estén acelerando enormemente el uso práctico de las BCI en el mundo real en un futuro próximo», concluyó.
Los investigadores también demostraron que su enfoque puede funcionar bien con una variedad de otras interfaces de detección cerebral, incluidas las matrices de microelectrodos (MEA) en las que los electrodos penetran la superficie del cerebro, o grabaciones no invasivas (sEMG) que utilizan sensores en la cara para medir la actividad muscular.
«Al demostrar una síntesis precisa de cerebro a voz en otros conjuntos de datos de habla silenciosa, demostramos que esta técnica no se limita a un tipo específico de dispositivo», afirmó Kaylo Littlejohn, estudiante de doctorado del Departamento de Ingeniería Eléctrica y Ciencias de la Computación de UC Berkeley y coautora principal del estudio. «El mismo algoritmo puede utilizarse en diferentes modalidades, siempre que exista una buena señal».
Descodificación de datos neuronales en voz
Según el coautor principal del estudio, Cheol Jun Cho, quien también es estudiante de doctorado en ingeniería eléctrica y ciencias de la computación en la UC Berkeley, la neuroprótesis funciona tomando muestras de datos neuronales de la corteza motora, la parte del cerebro que controla la producción del habla, y luego utiliza IA para decodificar la función cerebral en habla. «Básicamente, interceptamos señales donde el pensamiento se traduce en articulación y en medio de ese control motor», dijo. «Así que lo que decodificamos es después de que un pensamiento ha surgido, después de que hemos decidido qué decir, después de que hemos decidido qué palabras usar y cómo mover los músculos del tracto vocal».

Para recolectar los datos necesarios para entrenar su algoritmo, los investigadores primero le pidieron a Ann que mirara una indicación en la pantalla (como la frase: "Hola, ¿cómo estás?") y luego intentara decir esa oración en silencio. «Esto nos proporcionó un mapeo entre las ventanas fragmentadas de actividad neuronal que ella genera y la oración objetivo que está tratando de decir, sin necesidad de vocalizar en ningún momento», dijo Littlejohn.
«Usamos un modelo de texto a voz preentrenado para generar audio y simular un objetivo», dijo Cho. «Y también usamos la voz de Ann antes de la lesión, así que al decodificar la salida, suena más parecida a la suya».
Al analizar su actividad cerebral en incrementos de 80 milisegundos y traducirla a una versión sintetizada de su voz, el innovador método desarrollado por investigadores estadounidenses disipó un retraso frustrante que afectaba a las versiones anteriores de la tecnología.
La capacidad de nuestro cuerpo para comunicar sonidos tal como los pensamos es una función que a menudo damos por sentada. Solo en los raros momentos en que nos vemos obligados a hacer una pausa para escuchar un traductor o escuchar nuestro discurso en diferido por un altavoz, apreciamos la velocidad de nuestra propia anatomía.
Para las personas cuya capacidad de dar forma al sonido ha sido separada de los centros del habla de su cerebro , ya sea por enfermedades como la esclerosis lateral amiotrófica o lesiones en partes críticas del sistema nervioso, los implantes cerebrales acoplados a un software especializado han prometido una nueva oportunidad de vida.
Recientemente, varios proyectos de traducción de voz BCI han logrado avances monumentales , cada uno de ellos orientado a reducir el tiempo que lleva generar voz a partir de pensamientos. La mayoría de los métodos existentes requieren que se considere un fragmento completo de texto antes de que el software pueda descifrar su significado, lo que puede prolongar significativamente los segundos entre el inicio del habla y la vocalización.
Esto no solo es antinatural, sino que también puede resultar frustrante e incómodo para quienes utilizan el sistema. «Mejorar la latencia de la síntesis de voz y la velocidad de decodificación es esencial para una conversación dinámica y una comunicación fluida», escriben los investigadores de la Universidad de California en Berkeley y San Francisco en su trabajo publicado en Nature Medicine.

Además, la mayoría de los métodos existentes se basan en que el hablante entrene la interfaz mediante la ejecución de vocalizaciones. Para quienes no tienen práctica o siempre han tenido dificultades para hablar, proporcionar suficientes datos a su software de decodificación puede ser un desafío. Para superar ambos obstáculos, los investigadores entrenaron una red neuronal flexible y de aprendizaje profundo sobre la actividad de la corteza sensomotora de la participante de 47 años mientras ella «decía» en silencio 100 oraciones únicas de un vocabulario de poco más de 1.000 palabras. A diferencia de los métodos anteriores, este proceso no implicaba que el participante intentara vocalizar, sino solo pensar las oraciones en su mente. La decodificación del sistema de ambos métodos de comunicación fue significativa: el número promedio de palabras por minuto traducidas fue casi el doble que el de los métodos anteriores.
Es importante destacar que el uso de un método predictivo que podía interpretar continuamente sobre la marcha permitió que el habla de la participante fluyera de forma mucho más natural, ocho veces más rápida que con otros métodos. Incluso sonaba como su propia voz, gracias a un programa de síntesis de voz basado en grabaciones previas de su discurso.
Los autores del trabajo señalan que aún queda mucho por mejorar antes de que este procedimiento pueda considerarse clínicamente viable. Si bien el habla era inteligible, estaba muy por debajo de los métodos que decodifican texto. Sin embargo, si consideramos lo lejos que ha llegado la tecnología en tan sólo unos pocos años, hay motivos para ser optimistas y pensar que aquellos que no tienen voz pronto podrán alabando a los investigadores y sus dispositivos de lectura mental.
Este último trabajo acerca a los investigadores un paso más a lograr un habla naturalista con dispositivos BCI, al tiempo que sienta las bases para futuros avances. «Este marco de prueba de concepto es todo un avance», afirmó Cho. «Somos optimistas y creemos que ahora podremos lograr avances en todos los niveles. En el ámbito de la ingeniería, por ejemplo, seguiremos desarrollando el algoritmo para ver cómo podemos generar voz mejor y más rápido».
Los investigadores también siguen centrados en aumentar la expresividad de la voz de salida para reflejar los cambios de tono, timbre o volumen que ocurren durante el habla, como cuando alguien está emocionado. «Este es un trabajo en curso para intentar ver qué tan bien podemos decodificar estas características paralingüísticas a partir de la actividad cerebral», dijo Littlejohn.