VALL-E es el nombre de una nueva inteligencia artficial (IA) que llegó para sorprender a quienes todavía no creen en los logros de la tecnología y la proximidad que está adquiriendo a fin de asemejarse a las capacidades del ser humano.
Y es que en los últimos años hemos sido testigos de como la IA logra imitar nuestras conductas, que van desde sostener una conversación profunda hasta realizar labores de limpieza, tomar fotografías y escribir textos de todo tipo. Dichos progresos se deben, en parte, a que cada vez se conoce mejor su potencial para aprender mediante repeticiones, códigos y patrones de comportamiento con respuestas positivas o negativas.
Ahora, la comunidad tecnológica ha quedado nuevamente impactada, esta vez con un proyecto en el que se podrá imitar cualquier voz con sólo escucharla durante 3 segundos, ya sea en persona o mediante algún audio registrado.
Desarrollado por Microsoft, VALL-E es un modelo de lenguaje para la síntesis de texto a su voz (TTS), el cual ha estado bastante centrado en los avances de este tipo de tecnología.
El objetivo es que cuando esta IA se encuentre lo suficientemente pulida, pueda combinarse con los ChatGPT, famosos por su capacidad de crear textos tomando en cuenta información básica y simular una charla casual.
VALL-E todavía está lejos del alcance masivo, pero sí existen ejemplos para consulta de cómo es capaz de registrar emociones humanas reflejadas en el discurso con poco tiempo de audio y manifestarlas en su simulación de voz.