9/1/18

Tacotron 2



El ámbito de la sintetización de voz está en auge ya que es evidente que en el futuro la interacción con las máquinas y los ordenadores deberá ser verbal, utilizando lenguaje natural. En unas décadas los teclados y ratones deberían pasar a mejor vida, algo que ya se profetizó - de manera muy jocosa e inteligente- en una de las películas de la serie Star Trek cuando Scotty, que regresa a nuestro siglo, pretende dar instrucciones de viva voz al ordenador. Al menos, en entornos controlados y para instrucciones regladas y relativamente sencillas.


No es extraño que, habiendo un enorme mercado previsible, haya tantas empresas desarrollando sistemas Text-to-Speech que intentan que la voz sea lo más parecida posible a la humana, con su prosodia y su espontaneidad.

Google se suma a estos desarrollos con su Tacotron 2, un sistema que reclama ser indistinguible de la voz humana. Se basa en la combinación por métodos de inteligencia artificial de diversos samples. En este enlace pueden escucharse ejemplos de lo logrado por el sistema.



En el siguiente vídeo pueden verse los conceptos fundamentales.




Claro que una cosa es hablar con voz indistinguible de la humana y otra cosa es que lo que se diga sea gramaticalmente correcto, inteligible y racional. Esto está más lejos en el tiempo pues los avances en gramática computacional son aún escasos. Este vídeo, también lleno de humor, muestra lo que puede pasar:




Todo es cuestión de tiempo. Como decía Scotty, todo lo que no sea relacionarse verbalmente con las máquinas será, en un futuro, "pintoresco" ("how quaint" en el original).





0 comentarios :