[ad_1]
En los últimos años, la tecnología de conversión de texto a voz ha logrado avances significativos para mejorar nuestra vida cotidiana, desde asistentes virtuales como Siri y Alexa hasta libros electrónicos que se leen en voz alta. Sin embargo, todavía hay margen de mejora en este campo, y Amazon está a la cabeza con su nuevo modelo BASE TTS, considerado el más grande del mundo.
Los modelos de texto a voz (TTS) se utilizan en el desarrollo de asistentes de voz para dispositivos inteligentes y se emplean para convertir texto escrito en palabras habladas, lo que permite a los asistentes de voz Comunicarse con los usuarios de forma natural y humana..
Además, los modelos TTS producen resultados que se parecen mucho al habla natural, incorporando elementos como la entonación, el énfasis y la inflexión. Esta naturalidad mejora la experiencia del usuario y hace que las interacciones con los asistentes de voz sean más intuitivas y atractivas.
Más de 980 millones de parámetros
El equipo de expertos en inteligencia artificial de Amazon AGI detalló su innovadora hazaña en un artículo publicado en el servidor de preimpresión arXiv. Modelo BASE TTS de Amazon tiene 980 millones de parámetroslo que lo convierte en el modelo más grande en la categoría TTS, dicen los investigadores.
El documento afirma que lo que distingue a BASE TTS no es sólo su impresionante número de parámetros, sino también el amplio conjunto de datos de entrenamiento que utiliza. El modelo fue entrenado con 100.000 horas de discursos grabados de sitios web públicos.
Además, los investigadores enriquecieron su repertorio incorporando ejemplos de palabras y frases habladas de varios idiomas. permitiéndole navegar sin problemas por los matices lingüísticos y las pronunciaciones. También publicaron aquí ejemplos de los discursos producidos por la modelo.
Si bien los grandes modelos de lenguaje (LLM), como ChatGPT de OpenAI, han atraído la atención por su notable capacidad para participar en conversaciones inteligentes y generar texto sofisticado, la integración de la IA en aplicaciones convencionales como la conversión de texto a voz, sigue siendo un punto focal para los investigadores.
Hacer que la IA sea más inteligente es una tarea complicada
Fundamentalmente, el equipo realizó pruebas para ver el surgimiento de lo que se conoce como una "cualidad emergente" en el ámbito de la IA. Intentaron utilizar diferentes cantidades de datos para entrenarlo. Descubrieron que cuando su modelo TTS tenía 150 millones de parámetros, de repente comprendió y habló mucho mejor el idioma. Esto demuestra que hacer que la IA sea más inteligente Es una tarea bastante complicada.
Lo especial de BASE TTS, explicaron los investigadores, es que puede utilizar palabras complejas, mostrar emociones, utilizar correctamente la puntuación y hacer preguntas de forma inteligente.
El equipo de Amazon AGI decidió no hacer público el modelo por razones éticas. Consciente del posible uso indebido de una tecnología tan poderosa, el equipo reservó BASE TTS para uso interno como herramienta de aprendizaje.
Lea también:
[ad_2]
Extraído de RT