Ciencia y tecnologíaMiscelánea

OpenAI puede clonar tu voz con un audio de 15 segundos usando su IA con Voice Engine

La Inteligencia Artificial de OpenAI libera su poder con su sintetizador de voz Voice Engine. Sólo necesita unos segundos de audio para imitar a quien sea.

El futuro de la Inteligencia Artificial esta aquí, acaba de ser presentado por los chicos de OpenAI, los mismos detrás de ChatGPT, y resulta ser algo francamente perturbador. Ya que se acaba de mostrar el nuevo sintetizador de voz de la compañía liderada por Sam Altman: Voice Engine, el cuál sería capaz de clonar a cualquier persona con tan sólo escuchar un audio de 15 segundos del sujeto en cuestión.

Tal vez muchos no lo tengan presenten y consideren a esta organización como una empresa privada, pero en realidad OpenAI es una institución de investigación enfocada al ramo de la Inteligencia Artificial. Es por ello que ChatGPT sería meramente un anexo de su amplio ramo de áreas de trabajo, a pesar de su innegable popularidad a nivel global.

Sam Altman - ChatGPT | Composición
Sam Altman – ChatGPT | Composición

Ahora, esta instancia ha dado a conocer una nueva herramienta que podría revolucionar la forma en que interactuamos con el contenido digital, su sintetizador de voz denominado por ahora como Voice Engine. Una tecnología perturbadora capaz de crear voces sintéticas realistas a partir de muestras de audio de solo 15 segundos de duración.

Crear un clon perfecto de tu voz con una base tan corta y fácil de conseguir abre bastantes dudas e incertidumbres sobre lo que vendrá para la industria y la seguridad personal de cada potencial usuario o “víctima” de estas novedades.

Voice Engine de OpenAI abre muchas dudas sobre la privacidad

La herramienta, de acuerdo con lo publicado por los propios chicos de OpenAI en su blog oficial, se encuentra con un acceso de vista previa limitada desde finales del pasado año 2022, pero hoy en día ya está siendo utilizada en parte por casi cualquiera a través de la función Leer en voz alta disponible en la aplicación de ChatGPT.

Esta función permite a los usuarios escuchar las respuestas del chatbot con una voz algo natural y expresiva. Quienes haya tenido oportunidad de probarla podrán constatar que por lo menos a marzo de 2024 la voz generada por la Inteligencia Artificial en idioma español tiene múltiples problemas de dicción y fluidez que la delatan. Pero su versión en inglés es casi perfecta, suena como un humano.

Ahora las cosas están por llegar a un nuevo nivel absoluto con el sintetizador de Voice Engine, que tiene un gran potencial para una amplia gama de aplicaciones. Se podría utilizar con fines educativos, para traducir podcasts a nuevos idiomas distinto al original en el que fue producido, o incluso se podría usar para apoyar a personas con discapacidades del habla.

OpenAI
OpenAI (Unsplash)

Las muestras de audio disponibles en el sitio web de OpenAI son impresionantes. Las voces sintéticas suenan relativamente naturales y fluidas, aunque con un ligero toque robótico en algunos casos, particularmente en el caso de los extractos en español, pero resulta obvio que sólo es cuestión de tiempo para que se pula eso.

Qué pasa con el uso indebido de Voice Engine: esto dice OpenAI

Los propios colegas de The Verge resaltan como la gente de OpenAI reconoce que el uso indebido de esta tecnología es una preocupación importante. Por esta razón, por lo pronto Voice Engine solo está disponible para un grupo limitado de usuarios por el momento. Ya que la compañía desea investigar más a fondo cómo se puede proteger la herramienta para evitar que se utilice para difundir información errónea o para clonar voces sin consentimiento:

“Esperamos iniciar un diálogo sobre el despliegue responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades. Con base en estas conversaciones y los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si implementar esta tecnología a escala y cómo hacerlo”.

Es lo que señala la propia gente de OpenAI en la presentación de esta tecnología evolucionada, donde unos pocos segundos de audio de muestra bastarían para generar una réplica casi exacta de la voz de cualquier individuo. En un contexto donde su uso más obvio podría ser por ejemplo en estos momentos de campañas electorales, con el riesgo de la creación de algún audio deepfake quepodría alterar las tendencias y votaciones de manera definitiva.

En el lado más inocente de las cosas Voice Engine podría democratizar el acceso a la información y la comunicación, permitiendo que las personas con discapacidades del habla se expresen con mayor facilidad o reproduciendo de manera casi automática versiones dobladas en distintos idiomas de productos de audio como podcasts.

Pero en buena medida estamos ante algo que no se puede controlar ni regular por completo en estos momentos y eso es aterrador.

* Tomado de FayerWayer