G

Simon Poghosyan, fundador y director ejecutivo de GSpeech

Simon Poghosyan, fundador y director ejecutivo de GSpeech

Simón Poghosyan es el fundador y CEO de GSpeech, una plataforma de IA web que facilita la accesibilidad del contenido en línea al convertir texto en audio natural en más de 70 idiomas. Con experiencia en Diseño VLSI y un gran interés en la programación y la experiencia de usuario, Simon creó GSpeech para simplificar la forma en que los sitios web pueden ofrecer contenido con voz.

Hoy en día, GSpeech genera alrededor de 200 millones de caracteres de audio al mes y se utiliza en más de 70 países. Sus reproductores de audio personalizables registran más de 200,000 reproducciones mensuales. Tras superar recientemente los mil millones de caracteres de audio generados en total, GSpeech continúa creciendo rápidamente. La plataforma está diseñada para ser fácil de integrar (solo requiere una línea de código) y ayuda a creadores, educadores y empresas a hacer que su contenido sea más inclusivo y atractivo.

Tu experiencia en Diseño VLSI (Integración a Muy Gran Escala) y tus inicios en programación sentaron unas bases técnicas sólidas. ¿Qué te inspiró a cambiar de la microelectrónica al desarrollo de software basado en IA, y cómo esto te llevó a la creación de GSpeech?

Mi pasión por la resolución de problemas comenzó en la secundaria, impulsada por mi amor por las matemáticas y la física. Ese interés me llevó a obtener una licenciatura (2009) y una maestría (2011) en Diseño VLSI por la Universidad Estatal de Ingeniería de Armenia, en colaboración con Synopsys Armenia. Estudiar física me formó en precisión y pensamiento analítico, pero fue durante mi segundo año que descubrí la programación —empezando por el lenguaje Pascal— y me enamoré de inmediato. Mi amigo y yo terminábamos las tareas del curso en cuanto las recibíamos, aunque teníamos seis meses para terminarlas. Luego, por diversión, empezamos a hacer las tareas de otros estudiantes.

Esta pasión me llevó a profundizar en el desarrollo de software. Empecé creando sitios web y luego construí mi propio CMS. Tras completar varios proyectos de automatización de procesos y diseñar arquitecturas de gestión de datos, me di cuenta de lo mucho que me apasionaba desarrollar soluciones digitales para interfaces web. A través del proyecto 2GLux, colaboré con Edvard Ananyan, creador del popular... GTranslate Servicio de traducción y un amigo del colegio del Quantum Gymnasium. Me presentó los ecosistemas de WordPress y Joomla, y el concepto de... GSpeech Se originó con él. Ese trabajo inicial dio lugar a la primera versión de nuestra herramienta, que permite a los usuarios escuchar texto en una página web, lo que sentó las bases de lo que más tarde se convertiría en una plataforma de IA completa. Para 2023, establecí Club Inteligente LLC escalar GSpeech en una solución global de audio con IA, compatible con más de 70 idiomas. Humanity UnionLos elogios de GSpeech a su función en la mejora de la accesibilidad de su plataforma de participación cívica reflejan mi misión de reducir las brechas digitales a través de la IA, una visión arraigada en mis primeros días de programación.

GSpeech comenzó como una herramienta para ayudar a usuarios con discapacidad visual. ¿Cómo influyó esa misión inicial en la evolución de la plataforma hacia una solución completa de texto a voz con IA?

El enfoque en la accesibilidad impulsó el desarrollo de audio de IA de alta calidad en tiempo real, la traducción a más de 70 idiomas y la integración fluida con sitios web mediante un simple fragmento de código. Esta misión dio lugar a funciones como reproductores de audio personalizables, paneles de selección de idioma y voz, reproducción contextual, descargas de audio y estadísticas de uso detalladas (incluyendo país, ciudad, datos del dispositivo y análisis de reproducción a lo largo del tiempo), todo ello diseñado para que el contenido sea más inclusivo y atractivo. Tras escribir más de 100,000 2023 líneas de código, lancé GSpeech Cloud Console en XNUMX: una solución escalable que equilibra la inclusividad con funcionalidades avanzadas, lo que permite a empresas y creadores hacer que su contenido sea accesible, multilingüe e interactivo en toda la web.

¿Cuáles fueron algunos de los mayores desafíos técnicos que enfrentó durante el desarrollo de GSpeech Cloud Console?

Uno de los mayores desafíos en el desarrollo de la Consola en la Nube de GSpeech fue diseñar una arquitectura escalable para la generación de audio de IA en tiempo real, seguro y de alta calidad. Esto requirió soluciones innovadoras para obtener contenido relevante de la web, procesar el audio en nuestros servidores y almacenarlo en la nube para una entrega rápida y confiable. Implementar medidas de seguridad robustas, como el cifrado y los controles de acceso, fue crucial para proteger el contenido dinámico generado por los usuarios.

Otro obstáculo fue habilitar la traducción en tiempo real mediante motores neuronales avanzados. Debíamos garantizar traducciones precisas y de baja latencia, a la vez que construíamos una interfaz intuitiva que permitiera a los usuarios seleccionar los idiomas y perfiles de voz preferidos para la reproducción, priorizando la comodidad y la personalización. Finalmente, desarrollamos un asistente para crear plantillas de audio con múltiples vistas de reproductor personalizables, que permitía a los usuarios diseñar reproductores únicos y visualmente atractivos, adaptados a sus sitios web. Lograr un equilibrio entre flexibilidad, rendimiento y facilidad de uso en todos los dispositivos fue un reto gratificante.

Con traducción en tiempo real en más de 70 idiomas y más de 230 voces con un sonido natural, ¿cómo se garantiza la calidad de la voz y se mantiene la precisión en un conjunto de idiomas tan diverso?

Para mantener una calidad de voz consistente, integramos múltiples modelos avanzados de texto a voz (TTS) que optimizamos y actualizamos constantemente. Estos motores multilingües gestionan contenido en varios idiomas con gran precisión. También estamos implementando más de 100 nuevas vibraciones de voz para ofrecer a los usuarios opciones aún más expresivas y naturales. Mensualmente, GSpeech genera más de 200 millones de caracteres de audio, prestando servicio a usuarios en más de 70 países, y nuestros reproductores en línea se utilizan más de 200,000 XNUMX veces al mes, cifra que sigue en aumento. Esta escala garantiza la retroalimentación continua y las pruebas en condiciones reales, lo que influye directamente en nuestros ajustes y controles de calidad.

¿Puede explicarnos cómo GSpeech aprovecha la IA y el aprendizaje automático para ofrecer una síntesis de voz realista? ¿Cómo se mantienen al día con los rápidos avances en la tecnología de voz neuronal?

GSpeech utiliza inteligencia artificial avanzada y aprendizaje automático, integrando múltiples modelos de texto a voz de vanguardia para producir una síntesis de voz realista. Estos modelos, optimizados para la naturalidad y la compatibilidad multilingüe, procesan las entradas de texto para generar audio de alta calidad con entonación y ritmo realistas, incluso para contenido en varios idiomas. Mejoramos la experiencia del usuario ofreciendo estilos de voz personalizables para diversos idiomas. También hemos integrado alias TTS, que permiten a los usuarios definir reglas personalizadas sobre cómo se reproducen ciertas palabras o frases en el audio; por ejemplo, reemplazando términos específicos para lograr una pronunciación o fraseo más precisos. Para mantenernos al día con la tecnología de voz neuronal, evaluamos e integramos continuamente los últimos avances, colaboramos con líderes del sector y planeamos desarrollar modelos propios en el futuro, asegurando que GSpeech se mantenga a la vanguardia de la innovación en síntesis de voz.

¿Qué importancia tienen para sus usuarios la sintonización de voz, el control de tono y la personalización de la reproducción? ¿Y cuál es el caso de uso del que está más orgulloso y en el que estas funciones realmente destacan?

La afinación de voz, el control de tono y la personalización de la reproducción son fundamentales para nuestros usuarios, ya que les permiten crear estilos de voz únicos y de alta calidad, adaptados a sus necesidades específicas, desde sitios web de noticias y blogs hasta contenido accesible de aprendizaje electrónico. La integración continua de más de 100 nuevas vibraciones de voz mejora aún más esta función, ofreciendo a los usuarios una flexibilidad inigualable para crear voces en off verdaderamente distintivas. Estoy muy orgulloso de GSpeech Studio, una nueva plataforma de edición y generación de audio que estoy desarrollando. Permite a los usuarios crear múltiples canales de audio, mezclarlos con música de fondo y exportar voces en off pulidas, lo que permite a los creadores producir audio de calidad profesional para diversas aplicaciones. La carta de un estudiante con discapacidad visual, agradeciendo a GSpeech por permitir el estudio independiente a través de audio personalizado, me conmovió profundamente. Este caso práctico muestra cómo estas funciones hacen que el contenido sea accesible y transformador, un objetivo que he perseguido desde mis inicios como programador.

GSpeech ofrece integraciones fluidas con WordPress, Shopify, Wix y más. ¿Cuál ha sido su estrategia para que la plataforma sea fácil de usar para creadores y empresas de diferentes ecosistemas?

Nuestra estrategia para la integración inmediata de GSpeech con plataformas como WordPress, Shopify y Wix se centró en la simplicidad, la compatibilidad y la escalabilidad. Desarrollamos plugins y fragmentos de código ligeros y modulares que se integran a la perfección y requieren una configuración mínima, a menudo con solo unos clics. Esto significa que miles de artículos y bloques de contenido dinámico pueden obtener soporte de voz al instante, sin esfuerzo manual. Ofrecemos reproductores altamente flexibles y con un diseño atractivo que se adaptan a diferentes dispositivos, incluyendo móviles, tabletas y ordenadores. Nuestros reproductores no solo son personalizables, sino que también están optimizados para la accesibilidad y la interacción del usuario. Para WordPress, integramos el panel de control en la nube de GSpeech directamente en el panel de administración a través de nuestro plugin, lo que agiliza la gestión para los usuarios. La documentación detallada y los paneles de control intuitivos guían a los usuarios sin conocimientos técnicos durante la instalación y la personalización. Las pruebas periódicas garantizan un rendimiento consistente en diversos ecosistemas, lo que permite a creadores y empresas añadir fácilmente la conversión de texto a voz con IA.

Mirando hacia atrás en el viaje desde 2012 hasta hoy, ¿cuál ha sido el logro más importante para usted a nivel personal o profesional en la creación de GSpeech?

El mayor logro de GSpeech fue generar mil millones de caracteres de audio de IA de alta calidad, lo que demuestra nuestro impacto global en la accesibilidad. Igualmente significativos han sido los comentarios que hemos recibido de organizaciones como Humanity Union, que elogió a GSpeech por mejorar su plataforma de responsabilidad social, y de los propietarios de blogs, que lo calificaron de "revolucionario" para la interacción con los usuarios. Más de 1 reseñas de cinco estrellas en plataformas como WordPress y AppSumo En los últimos meses se refleja esta creciente confianza.

GSpeech ahora también se utiliza activamente en Departamento de Estadística Regional de Namangan (Uzbekistán) — una institución gubernamental con un tráfico significativo y visibilidad a nivel nacional. Ver a un organismo público adoptar nuestra tecnología tan ampliamente ha sido un hito significativo y una sólida muestra de confianza en nuestra solución.

Como cristiano y sirvo en la iglesia armenia, también intento apoyar otras iniciativas religiosas siempre que sea posible. A menudo ofrezco GSpeech gratuitamente a sitios web cristianos para ayudar a difundir su mensaje de forma más eficaz y hacer que las Escrituras sean más accesibles a través del audio. Es mi pequeña contribución a algo mayor. Al mismo tiempo, me honra trabajar con ministerios dedicados como La cuerda — una congregación mesiánica y un valioso cliente de GSpeech — cuya misión y contenido reflejan el poder de las Escrituras en acción.

Estos momentos, cuando la tecnología se convierte en un puente para la fe, la comprensión y la inclusión, me recuerdan por qué creamos GSpeech en primer lugar.

¿Qué papel cree que desempeñará GSpeech en el futuro de los medios digitales, especialmente a medida que el contenido de audio y las interfaces de voz se vuelven más dominantes?

Visualizo a GSpeech como líder en hacer que los medios digitales sean más accesibles y atractivos, permitiendo el acceso de voz a la web con IA. Nuestro objetivo es transformar la experiencia en línea por completo, para que los sitios web sean naturalmente interactivos con voz, inclusivos y multilingües por defecto. Con solo una línea de código, los propietarios de sitios web pueden convertir miles de artículos en contenido vocal. De cara al futuro, estamos desarrollando GSpeech Studio para convertirlo en una plataforma potente y única para la generación y edición de audio, que permita a los usuarios crear contenido vocal multicapa con música de fondo, efectos y una afinación precisa. Queremos que la web sea realmente audible, intuitiva y universalmente accesible.

GSpeech se lanzó recientemente en AppSumo Y ya ha obtenido una calificación casi perfecta de los primeros usuarios. ¿Qué ha significado para ti la respuesta de la comunidad de AppSumo y cómo planeas aprovechar este impulso en el futuro?

El lanzamiento de AppSumo presentó GSpeech a millones de personas, y su calificación casi perfecta es increíblemente alentadora. Los usuarios, como quienes imparten cursos en línea, elogian nuestras herramientas intuitivas y nuestro soporte técnico receptivo, coincidiendo con los comentarios de Humanity Union. El autor de un blog calificó nuestras voces como "realmente atractivas" y nuestras traducciones, "impresionantes". Sus comentarios positivos confirman el valor de nuestra solución de texto a voz con inteligencia artificial y alimentan mi pasión por el proyecto. El apoyo a los clientes durante el lanzamiento también generó nuevas ideas, en particular para GSpeech Studio, que se inspiró en las solicitudes de los usuarios de funciones avanzadas de edición y exportación de audio. De ahora en adelante, planeo aprovechar este impulso escuchando activamente a nuestra comunidad, integrando sus comentarios y desarrollando funciones innovadoras para mejorar la accesibilidad y la participación, asegurando que GSpeech siga evolucionando como una herramienta transformadora para creadores y empresas.

Por último, ¿qué consejo le darías a los jóvenes desarrolladores o emprendedores que quieran crear herramientas accesibles impulsadas por IA en el cambiante panorama tecnológico actual?

A los jóvenes desarrolladores y emprendedores, mi consejo es que se dediquen por completo a su trabajo e identifiquen un problema real al que puedan ofrecer una solución única e inteligente. Empiecen poco a poco, avancen con paso firme y escuchen atentamente los comentarios de los clientes: ellos guiarán su camino. Traten a sus usuarios como amigos de confianza, den lo mejor de sí y sean pacientes. Adopten las tecnologías de IA como aliados poderosos; cuando se usan con inteligencia, amplifican su capacidad para crear herramientas impactantes y accesibles. Construyan con pasión, persistencia y compromiso para marcar la diferencia, y crearán soluciones que realmente importan.

¡Gracias a antoine tardif Para la entrevista. Puedes leer la entrevista completa aquí: unir.ai.

🎬 Vídeos

🎬 GSpeech - Recorrido en vídeo
🎬 ¡Descubre GSpeech: transforma texto en audio con la magia de la IA!
¡Mueve tu contenido al siguiente nivel! ¡Pruebe GSpeech ahora!
Obtener GSpeech