Sociedad

OpenAI retrasa por cuestiones de seguridad el lanzamiento de su nueva herramienta para clonar voces

La herramienta solo necesita un audio de 15 segundos y una instrucción detallada para generar contenido. Luego de unos primeros testeos, la compañía decidió postergar su apertura al público por el potencial daño de su uso ilegal o malicioso.

Por Victoria Mendizabal

09/04/2024 14:28 | Actualizado 09/04/2024 14:30

OpenAI ya tiene una herramienta para todo. ChatGPT genera textos; DALL-E 3, imágenes; Sora, videos. Y ahora llega Voice Engine, un motor de IA generativa para crear audios. Así lo anunció la empresa a fines de marzo en un comunicado oficial. La empresa compartió pruebas preliminares en las que a partir de un prompt (un texto breve) y una muestra de audio de 15 segundos, Voice Engine puede generar un audio natural que se asemeja mucho al hablante original. La herramienta puede utilizarse en diferentes idiomas, respeta los tonos y los colores de la voz e intenta lograr un nivel de verosimilitud sin precedentes.

Google busca reestructurar su modelo de negocios con un nuevo servicio de búsquedas potenciadas por inteligencia artificial

Pero, ¿para qué sirve? Una de las funciones con más alcance será probablemente la capacidad que tiene de traducir de un idioma a otro. Y no es una traducción automática y robótica. Por ejemplo, si el audio insertado es de una persona de Estados Unidos y le solicita traducirlo al español, hay un acento norteamericano en la traducción al castellano que se mantiene. Un nivel de credibilidad difícil de distinguir de la realidad.

La herramienta también tiene la posibilidad de ser funcional en ámbitos educativos. Puede ofrecer asistencia de lectura a niños y personas que no saben leer a través de voces naturales y emotivas que representan a un abanico de hablantes más amplio que el que ofrecen las voces preestablecidas (sin matices y muy programadas).

Además, Voice Engine puede ofrecer soluciones para las personas con discapacidad. Esta nueva herramienta les permite crear su propia voz, con su color y personalidad que los represente y así poder interactuar con una cantidad de personas más amplia, sin estar limitados al conocimiento del lenguaje de señas por parte del otro.

La historia de Melanie Perkins, la fundadora de Canva

Los riesgos

Sin embargo, su potencial representa también un riesgo. De hecho, según Wired, OpenAI decidió retrasar el lanzamiento de su primera prueba piloto a un sector más extenso de diferentes desarrolladores por miedo a las consecuencias éticas que esto podría traer en materia de usos ilegales y maliciosos.

La herramienta podría usarse para estafas telefónicas que imitan la voz de un ser querido para solicitar dinero o la difusión de contenido engañoso, como las llamadas con la voz (robótica) de Joe Biden que desincentivan a sus votantes a presentarse en las elecciones con una justificación falsa.

Voice Engine podría representar un riesgo para las medidas de seguridad que hoy muchos sistemas tienen. Los bancos que requieren la autenticación por voz para acceder a las cuentas bancarias. “Somos conscientes de que generar un discurso que se asemeje a las voces de la gente tiene graves riesgos”, explica la empresa en su comunicado oficial. “Estamos colaborando con socios estadounidenses e internacionales del gobierno, los medios de comunicación, el mundo del espectáculo, la educación y la sociedad civil, entre otros, para asegurarnos de que incorporamos sus comentarios a medida que avanzamos”, profundiza.

Eclipse solar: crean un dispositivo para que personas con discapacidad visual puedan disfrutarlo

Para ello, en los términos y condiciones, cada persona que pudo hacer uso de esta herramienta en el periodo de prueba debió aceptar que tienen prohibido la suplantación de otro individuo u organización sin consentimiento o derecho legal. Además, se exige que los usuarios obtengan la autorización informada de las personas cuyas voces se clonan, y también deben revelar claramente que los resultados obtenidos son generados por inteligencia artificial.

Según Quartz, ya existen varias herramientas de clonación de voz, como ElevenLabs, y traductores, como Respeecher. Pero OpenAI se ha convertido en una referente desde que introdujo ChatGPT. “En cuanto convierta Voice Engine en un producto disponible públicamente podría abrir las compuertas a todo tipo de nuevos abusos que ni siquiera hemos soñado”, concluye el artículo.