Google IA desarrolla un programa voz que suena como un humano

Apps y Software

Por Sophimania Redacción
13 de Septiembre de 2016 a las 07:56
Compartir Twittear Compartir
Google IA desarrolla un programa voz que suena como un humano
WaveNet imita la voz humana de una manera impresionante. Imagen: Shutterstock

DeepMind, el brazo de Google que desarrolla inteligencia artificial, ha anunciado un nuevo programa de síntesis de voz en WaveNet. Este nuevo programa imita a la perfección la voz humana, una gran diferencia con los sistemas actuales que generan una voz muy robótica.

Programas como Google Voice Search han funcionado entendiendo las voces humanas durante ya un buen tiempo. Sin embargo, sintetizar algo de esas muestras está resultando ser todo un reto. El método más importante usado actualmente es TTS por concatenación (TTS son las siglas en inglés de texto a voz), el cual combina fragmentos de discurso grabado juntos.

El principal inconveniente es que este método no puede modificar los fragmentos para crear algo nuevo, lo que resulta en la característica voz robótica poca natural que se suele encontrar en los videos de Anonymous en YouTube. Otro método es  el TTS paramétrico, el cual pasa la voz a través de un codificador del habla, produciendo una voz incluso menos natural.

WaveNet de Google utiliza un enfoque completamente diferente. En lugar de simplemente analizar el audio del que se alimenta, aprende de él, similar a cómo funcionan muchos sistemas de redes neuronales. Al trabajar con al menos 16 mil muestras por segundo, WaveNet puede generar sus propias muestras de audio.

Y puede hacerlo sin mucha intervención humana; utiliza las estadísticas para predecir realmente qué pieza de audio necesita, lo siguiente que tiene que decir. El anuncio hecho por Google tiene varias muestras de voz, en inglés y chino Mandarín. El sistema también es capaz de sintetizar su propia música, ya que se puede analizar cualquier patrón de sonido y no sólo de voz.

Otra de sus características más impresionante es que el sistema puede sintetizar voz sin necesidad de que se le alimente. Porque a diferencia de TTS que siempre requiere de entrada para funcionar, WaveNet es capaz de crear sonidos de voz sin una hoja de ruta.

Obviamente, el resultado no es más que una cadena de sonidos sin sentido, pero que también contiene los sonidos de los movimientos de una boca y una respiración. Esto indica el gran potencial del sistema para crear voces computarizadas más realistas.

 

FUENTES: SCIENCEALERT, TECHCRUNCH


#google #deepmind #wavenet
Compartir Twittear Compartir