Conferencia de Voctrolabs en la Campus Party

campusparty2012

Desde el día 21 y hasta el 26 de Agosto se está celebrando en el aeropuerto de Tampelhof de Berlín laCampus Party , el mayor evento de internet a nivel mundial que desde 1997 reune a miles de apasionados de nuevas tecnologías de la información.

Entre las muchísimas conferencias disponibles en su canal de Youtube lógicamente la que más nos interesa en vocaloidmaster.com es la ofrecida por Jordi Janer de Voctrolabs bajo el título:

Vocal Illusions – Voice Synthesis and Transformation

Si sabes un poco de inglés podrás seguir con facilidad la charla con la ayuda de los textos de la presentación. Durante 40 minutos Jordi expone algunos de los resultados obtenidos de las investigaciones realizadas por el MTG-UPF (Music Technology Group de la Universitat Pompeu Fabra) en el campo de la síntesis y transformación de la voz:

Todo lo mostrado en la charla ya me era conocido desde hace tiempo ya que suelo devorar bastante información sobre la síntesis de voz y el modelado físico de instrumentos musicales, temática que me apasiona. De lo mostrado en la charla quiero destacar lo siguiente:

VDriven

Es un prototipo de aplicación en la que el usuario puede controlar mediante la voz la interpretación de un instrumento virtual monofónico. Esto es, el usuario canta o tararea sobre un micrófono conectado a VDriven, que convierte la voz en datos midi que pueden ser entendidos por un instrumento VST. Muy interesante y útil para añadir expresión a instrumentos de cuerda y viento, como un bajo, un violín, trompeta, flauta, etc.

Es mucho más sofisticado y complejo que las poco útiles aplicaciones que convierten audio a midi (he probado unas cuantas), éstas sólo interpretan el tono y volumen mientras que PDriven es capaz de describir las articulaciones características del instrumento de destino a partir de la voz u otra fuente de audio. Es una definición un poco basta, si queréis ampliar la información podéis leer la disertación de postgrado del Doctor Jordi Janer, Singin-driven interfaces for sound synthesizers.

Pero VDriven también sirve para hacer cantar a Vocaloid, este gran paso requiere reconocer fonéticamente el audio entrante, y no es tan sencillo como parece. Por lo que se ve en este video se emplea una grabación de canto y una transcripción fonética de la letra, información que VDriven emplea para hacer cantar a Bruno casi en tiempo real y de una manera muy próxima al original.

Ya queda  poco menos para que podamos cantar directamente en un micrófono y obtengamos una pista editada en Vocaloid!. En el estado de desarrollo de VDriven visto en el vídeo sería necesario corregir las extrañas oscilaciones de tono, pero creo que ahorraría mucho trabajo. Eso sí, si eres un buen cantante!

Respecto a la capacidad de VDriven para controlar intrumentos VST con la voz, a título personal me gustaría conocer el resultado que se podría obtener con los instrumentos de Samplemodeling. Para mi criterio, los mejores instrumentos de viento que se pueden encontrar hoy en el mercado. Suenan increíblemente bien y están tan genialmente diseñados que es posible interpretar frases realistas en un teclado, por lo que me parece de menor dificultad lograr buenos resultados de salida empleando audio de intrumentos reales como entrada.

Modelos de expresión

Finalmente! Aunque poco se sabe al respecto sobre este tema me alegra saber que por fín hay avances presentables en este campo. A partir de una partitura o archivo midi importado en Vocaloid Editor, con el uso de modelos de expresión la melodía automáticamente cobra vida y es más realista. 

Para ello se realiza un análisis de la intrepretación de fragmentos de melodías  grabadas de cantantes reales y se genera una buena base de datos que contiene información referente a cambios dinámicos, legatos, portamentos, vibratos, etc. Esto es, un modelo de expresión contienen la información tipo quedescribe cómo un cantante real interpreta una melodía, teniendo en cuenta el género musical y el tempo.Sencillamente genial!

No obstante aún queda trabajo. El ejemplo mostrado con la voz masculina en inglés me resultó muy interesante, aunque lejos de ser satisfactorio. Noté muy lentos algunos legatos y portamentos, flojos los vibratos y la intrepretación con insuficiente cambio dinámico. Haría bastantes correcciones a nivel fonético también, el idioma inglés es más dificil de editar ya que hay que ajustar mucho más los fonemas que en castellano. Aún así no es nada grave si se puede retocar y desde luego ahorraría mucho trabajo!

Sobre la implementación de modelos de expresión sólo conozco 2 instrumentos virtuales que emplean dicho principio:

Jamstix para baterías – bateristas modelados, cada uno con su forma particular de tocar, en muchos estilos. Muy lograda la implementación del auto acompañamiento.

Synful – Una orquesta de modelado físico que da el pego.

¿Qué os pareció la nueva voz inglesa? A mí me gustó mucho, un buen timbre que me recuerda mucho a Bruno. A falta de más información le llamaré John Doeloid, a ver si le dan pronto los papeles, así lo podré contratar para cantar algunas de las  canciónes en inglés que tengo preparadas que no encajan con el tono y timbre de Sweet Ann.

Growl, breath!

Qué sería de muchas canciones sin estos efectos producidos por la voz!

Growl es el término inglés que se emplea para definir el efecto de la voz rasposa, muy empleado en principalmente en géneros como blues, soul, etc, que transmite rabia y energía a la interpretación. Han puesto un buen ejemplo con la canción de Joe Cocker, Unchain my heart. Es un efecto vocal bastante complicado de reproducir en Vocaloid y los resultados pueden ser muy dispares y poco naturales, ya veremos cómo se ha resuelto la implementación. Para incluir este efecto tengo un temazo ya preparado realmente increíble.

Breath, echo en falta en Vocaloid una mejor implementación de este efecto para lograr una voz más susurrante o con más explusión de aire, muy apropiado para las baladas o grandes cambios dinámicos en los comienzos o finales de frases melódicas. Este efecto no lo pude apreciar bien por la deficiente calidad del audio, pero parece ser que es modelado y vas más allá de lo que se podría conseguir subiendo BRE y modificando otros parámetros en Vocaloid.

Aunque he leído que de estos efectos ya tenían un modelo imperfecto hace años, todo parece indicar tras esta presentación que han logrado un acercamiento a su implementación.

Nota final

Buen trabajo Voctrolabs, pero por favor, debéis preparar mejores demostraciones de audio para las presentaciones! 😉

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s