Text-to-Speech, también denominado TTS, es una forma de tecnología de apoyo que brinda facilidad y comodidad en la vida. El sistema lee textos digitales en voz alta y con la suficiente claridad para que una persona los entienda. TTS también se conoce como tecnología de lectura en voz alta, ampliamente aceptada por su flexibilidad. Está a un solo toque de distancia, donde el texto del sitio web se convierte en audio.
El sistema se expande a todos los dispositivos, como teléfonos inteligentes, computadoras portátiles, computadoras de escritorio y tabletas, y se considera ideal para niños, público mayor de 20 años y personas con discapacidades. La dificultad para leer y el cansancio de la vista ante los dispositivos electrónicos desaparecen con TTS, al tiempo que aumenta la concentración, el aprendizaje y el hábito de leer en línea a través de la escucha. Entonces, si eres un bloguero, lector o propietario de un sitio web, TTS es un software que ampliará tu horizonte de conocimiento. Pero, ¿cuáles son los beneficios de tener voz para todo, sin limitaciones ni fronteras? Está segregado según los usuarios, ya que son las personas que utilizan los servicios.
Permitir que las personas conversen con las máquinas es un sueño de larga data de la interacción entre humanos y computadoras. La capacidad de las computadoras para comprender el habla natural ha sido revolucionada en los últimos años por la aplicación de redes neuronales profundas (por ejemplo, Google Voice Search). Sin embargo, generar voz con computadoras, un proceso que generalmente se conoce como síntesis de voz o conversión de texto a voz (TTS) — todavía se basa en gran medida en los llamados TTS concatenativo, donde se graba una base de datos muy grande de fragmentos de voz cortos de un solo hablante y luego se recombinan para formar expresiones completas. Esto hace que sea difícil modificar la voz (por ejemplo, cambiar a un altavoz diferente o alterar el énfasis o la emoción de su discurso) sin grabar una base de datos completamente nueva.
El proceso TTS implica varias etapas:
Existen varios tipos de tecnología TTS, entre ellos:
GSpeech ofrece muchas funciones, incluidas soluciones de conversión de texto a voz (TTS) en línea, SaaS y locales para una amplia variedad de fuentes, como sitios web, aplicaciones móviles, libros electrónicos, material de aprendizaje electrónico, documentos, experiencia diaria del cliente, experiencia de transporte y mucho más. Cómo se benefician las empresas, organizaciones y editoriales que integran la tecnología TTS.
La tecnología TTS proporciona una mayor accesibilidad para las personas con discapacidades visuales, dislexia o dificultades de lectura, permitiéndoles acceder a la información y comunicarse más fácilmente.
Al ofrecerles a los usuarios una forma alternativa de consumir su contenido, puede mejorar la optimización para motores de búsqueda (SEO) de su sitio web de WordPress. Esto es particularmente importante para los usuarios que dependen de lectores de pantalla para navegar por la web.
La tecnología TTS puede mejorar la experiencia del usuario al proporcionar una forma más natural e intuitiva de interactuar con los dispositivos, reduciendo la necesidad de escribir o leer manualmente.
La tecnología TTS puede brindar soporte al cliente 24 horas al día, 7 días a la semana, respondiendo preguntas frecuentes y brindando información a los clientes de una manera más eficiente y efectiva.
La tecnología TTS puede aumentar la productividad al automatizar tareas como el ingreso, la transcripción y la lectura de datos, liberando tiempo para tareas más importantes.
La tecnología TTS puede admitir varios idiomas, lo que la convierte en una herramienta valiosa para empresas y organizaciones que operan a nivel global.
La tecnología TTS puede mejorar la comprensión lectora al permitir a los usuarios escuchar el texto mientras siguen la palabra escrita, lo que facilita la comprensión de información compleja.
La tecnología TTS puede reducir la fatiga y el cansancio visual al ofrecer una alternativa a la lectura y la escritura, lo que la convierte en una herramienta valiosa para las personas que pasan muchas horas frente a las pantallas.
La tecnología TTS puede aumentar la participación al brindar una experiencia más interactiva e inmersiva, lo que la convierte en una herramienta valiosa para aplicaciones educativas y de entretenimiento.
La tecnología TTS puede proporcionar una ventaja competitiva al ofrecer una forma única e innovadora de interactuar con los dispositivos, diferenciando su producto o servicio de la competencia.
Esto ha llevado a una gran demanda de TTS paramétrico, donde toda la información requerida para generar los datos se almacena en los parámetros del modelo, y los contenidos y características de la voz se pueden controlar a través de las entradas al modelo. Hasta ahora, sin embargo, el TTS paramétrico ha tendido a sonar menos natural que la concatenación. Los modelos paramétricos existentes generalmente generan señales de audio al pasar sus salidas a través de algoritmos de procesamiento de señales conocidos como codificadores de voz.
WaveNet cambia este paradigma modelando directamente la forma de onda sin procesar de la señal de audio, una muestra a la vez. Además de producir un discurso que suena más natural, el uso de formas de onda sin procesar significa que WaveNet puede modelar cualquier tipo de audio, incluida la música.
Los investigadores suelen evitar modelar audio en bruto porque su ritmo es muy rápido: normalmente 16,000 muestras por segundo o más, con una estructura importante en muchas escalas de tiempo. Construir un modelo completamente autorregresivo, en el que la predicción de cada una de esas muestras esté influida por todas las anteriores (en términos estadísticos, cada distribución predictiva está condicionada por todas las observaciones anteriores), es claramente una tarea desafiante.
Sin embargo, PixelRNN y PixelCNN Los modelos publicados anteriormente demostraron que era posible generar imágenes naturales complejas no solo un píxel a la vez, sino un canal de color a la vez, lo que requería miles de predicciones por imagen. Esto nos inspiró a adaptar nuestras PixelNets bidimensionales a una WaveNet unidimensional.
La animación anterior muestra cómo se estructura una WaveNet. Es una red neuronal completamente convolucional, donde las capas convolucionales tienen varios factores de dilatación que permiten que su campo receptivo crezca exponencialmente con la profundidad y cubra miles de pasos de tiempo.
En el momento del entrenamiento, las secuencias de entrada son formas de onda reales grabadas de hablantes humanos. Después del entrenamiento, podemos muestrear la red para generar enunciados sintéticos. En cada paso durante el muestreo, se extrae un valor de la distribución de probabilidad calculada por la red. Luego, este valor se vuelve a introducir en la entrada y se realiza una nueva predicción para el siguiente paso. Generar muestras paso a paso de esta manera es costoso desde el punto de vista computacional, pero hemos descubierto que es esencial para generar audio complejo y con un sonido realista.
Nos entrenamos WaveNet Utilizando algunos de los conjuntos de datos TTS de Google para poder evaluar su rendimiento. La siguiente figura muestra la calidad de WaveNets en una escala del 1 al 5, en comparación con los mejores sistemas TTS actuales de Google (paramétrico y concatenación), y con el habla humana utilizando Puntuaciones de opinión medias (MOS). Los MOS son una medida estándar para las pruebas subjetivas de calidad de sonido y se obtuvieron en pruebas a ciegas con sujetos humanos (a partir de más de 500 calificaciones en 100 oraciones de prueba). Como podemos ver, WaveNets reduce la brecha entre el estado del arte y el rendimiento a nivel humano en más del 50% tanto para inglés estadounidense como para chino mandarín.
Tanto para chino como para inglés, los sistemas TTS actuales de Google se consideran entre los mejores del mundo, por lo que mejorar ambos con un único modelo es un logro importante.
GSpeech cuenta con un algoritmo de síntesis de voz basado en inteligencia artificial, que es uno de los más avanzados y realistas del sector. La mayoría de los sintetizadores de voz (incluido Siri de Apple) utilizan lo que se denomina síntesis concatenativa, en la que un programa almacena sílabas individuales (sonidos como "ba", "sht" y "oo") y las junta sobre la marcha para formar palabras y oraciones. Este método ha mejorado bastante con el paso de los años, pero todavía suena forzado.
WaveNet, en cambio, utiliza el aprendizaje automático para generar audio desde cero. En realidad, analiza las formas de onda de una enorme base de datos de habla humana y las recrea a una velocidad de 24,000 muestras por segundo. El resultado final incluye voces con matices como chasquidos de labios y acentos. Cuando Google presentó WaveNet por primera vez en 2016, era demasiado intensivo en términos computacionales para funcionar fuera de los entornos de investigación, pero desde entonces se ha reducido significativamente, mostrando un claro proceso desde la investigación hasta el producto.