Generalidades

Experimento busca convertir la voz humana en la de un perro, con fines audiovisuales

La conversión de voz es un proceso de procesamiento de sonido en el que la forma de onda del habla del hablante de origen se convierte en una forma de onda de habla diferente, con las características del hablante de destino, pero conservando la información lingüística.

Bajo esta dinámica, un equipo de científicos de Japón se propuso desarrollar un sistema que les permita adaptar grabaciones de voz humana como si fueran declaraciones de un perro.

“Perros que hablan como humanos”, gracias a un proceso de conversión vocal

Una investigación conjunta, realizada por profesionales de la Facultad de Ciencias de la Información e Ingeniería de la Universidad Ritsumeikan y los laboratorios de ciencias de la comunicación de NTT Corporation, ambos de Japón, se propuso investigar la posibilidad de “hacer hablar a la gente”. a los perros”, a través de procesos de conversión vocal.

Para familiarizarse con el principio detrás de este modelo, puede tomar como ejemplo el uso de la codificador de voz en musica electronica. bandas como kraftwerk o Daft Punk, utilizó este recurso para crear un efecto de “voz robótica”, procesando la voz natural de sus cantantes con el tono electrónico emitido por un sintetizador. Como si fuera un promedio entre ambas variables, se obtiene un sonido electrónico, pero respetando la vocalización original.

En el papel documentando este estudio, se presenta un mecanismo que, a partir de muestras vocales de un perro, es posible procesar un fragmento de voz humana para hacerlo sonar en la tonalidad del animal, con la finalidad de utilizar este como recurso audiovisual, para el doblaje de perros en películas o videojuegos.

ejemplo

Diagrama que resume el funcionamiento del conversor vocal presentado. Fuente: arxiv.org

El procesamiento de la voz en este caso no consiste únicamente en un “filtro” que combina ambas variables para obtener un resultado. Bajo una dinámica reducida a eso, los resultados pueden ser extremadamente rústicos. En este caso, el sistema de procesamiento cuenta con un “discriminador real o falso”, que se encarga de evaluar qué tan creíble es la reproducción obtenida, a partir del análisis de factores como el nivel de similitud que tiene el producto obtenido con el sonido de un perro, la calidad del sonido y si es posible lograr la claridad necesaria para distinguir lo que se escucha en el audio generado.

Las primeras pruebas realizadas, con diferentes métodos de conversión, presentaron resultados mayoritariamente positivos para los dos primeros criterios. Sin embargo, los mayores desafíos se concentran en el nivel de claridad, ya que ni siquiera se alcanzó el umbral mínimo esperado.

Si los experimentos duran, se podría realizar el propósito de “hacer hablar a un perro” que aún no se ha logrado del todo, permitiendo así generar un nuevo nivel de fantasía en las experiencias cinematográficas o en el mundo de los videojuegos.

LEER  ¿Por qué AdTech vuelve a estar de moda?

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba