Conferencia de Voctrolabs en la Campus Party

campusparty2012

Desde el día 21 y hasta el 26 de Agosto se está celebrando en el aeropuerto de Tampelhof de Berlín laCampus Party , el mayor evento de internet a nivel mundial que desde 1997 reune a miles de apasionados de nuevas tecnologías de la información.

Entre las muchísimas conferencias disponibles en su canal de Youtube lógicamente la que más nos interesa en vocaloidmaster.com es la ofrecida por Jordi Janer de Voctrolabs bajo el título:

Vocal Illusions – Voice Synthesis and Transformation

Si sabes un poco de inglés podrás seguir con facilidad la charla con la ayuda de los textos de la presentación. Durante 40 minutos Jordi expone algunos de los resultados obtenidos de las investigaciones realizadas por el MTG-UPF (Music Technology Group de la Universitat Pompeu Fabra) en el campo de la síntesis y transformación de la voz:

Todo lo mostrado en la charla ya me era conocido desde hace tiempo ya que suelo devorar bastante información sobre la síntesis de voz y el modelado físico de instrumentos musicales, temática que me apasiona. De lo mostrado en la charla quiero destacar lo siguiente:

VDriven

Es un prototipo de aplicación en la que el usuario puede controlar mediante la voz la interpretación de un instrumento virtual monofónico. Esto es, el usuario canta o tararea sobre un micrófono conectado a VDriven, que convierte la voz en datos midi que pueden ser entendidos por un instrumento VST. Muy interesante y útil para añadir expresión a instrumentos de cuerda y viento, como un bajo, un violín, trompeta, flauta, etc.

Es mucho más sofisticado y complejo que las poco útiles aplicaciones que convierten audio a midi (he probado unas cuantas), éstas sólo interpretan el tono y volumen mientras que PDriven es capaz de describir las articulaciones características del instrumento de destino a partir de la voz u otra fuente de audio. Es una definición un poco basta, si queréis ampliar la información podéis leer la disertación de postgrado del Doctor Jordi Janer, Singin-driven interfaces for sound synthesizers.

Pero VDriven también sirve para hacer cantar a Vocaloid, este gran paso requiere reconocer fonéticamente el audio entrante, y no es tan sencillo como parece. Por lo que se ve en este video se emplea una grabación de canto y una transcripción fonética de la letra, información que VDriven emplea para hacer cantar a Bruno casi en tiempo real y de una manera muy próxima al original.

Ya queda  poco menos para que podamos cantar directamente en un micrófono y obtengamos una pista editada en Vocaloid!. En el estado de desarrollo de VDriven visto en el vídeo sería necesario corregir las extrañas oscilaciones de tono, pero creo que ahorraría mucho trabajo. Eso sí, si eres un buen cantante!

Respecto a la capacidad de VDriven para controlar intrumentos VST con la voz, a título personal me gustaría conocer el resultado que se podría obtener con los instrumentos de Samplemodeling. Para mi criterio, los mejores instrumentos de viento que se pueden encontrar hoy en el mercado. Suenan increíblemente bien y están tan genialmente diseñados que es posible interpretar frases realistas en un teclado, por lo que me parece de menor dificultad lograr buenos resultados de salida empleando audio de intrumentos reales como entrada.

Modelos de expresión

Finalmente! Aunque poco se sabe al respecto sobre este tema me alegra saber que por fín hay avances presentables en este campo. A partir de una partitura o archivo midi importado en Vocaloid Editor, con el uso de modelos de expresión la melodía automáticamente cobra vida y es más realista. 

Para ello se realiza un análisis de la intrepretación de fragmentos de melodías  grabadas de cantantes reales y se genera una buena base de datos que contiene información referente a cambios dinámicos, legatos, portamentos, vibratos, etc. Esto es, un modelo de expresión contienen la información tipo quedescribe cómo un cantante real interpreta una melodía, teniendo en cuenta el género musical y el tempo.Sencillamente genial!

No obstante aún queda trabajo. El ejemplo mostrado con la voz masculina en inglés me resultó muy interesante, aunque lejos de ser satisfactorio. Noté muy lentos algunos legatos y portamentos, flojos los vibratos y la intrepretación con insuficiente cambio dinámico. Haría bastantes correcciones a nivel fonético también, el idioma inglés es más dificil de editar ya que hay que ajustar mucho más los fonemas que en castellano. Aún así no es nada grave si se puede retocar y desde luego ahorraría mucho trabajo!

Sobre la implementación de modelos de expresión sólo conozco 2 instrumentos virtuales que emplean dicho principio:

Jamstix para baterías – bateristas modelados, cada uno con su forma particular de tocar, en muchos estilos. Muy lograda la implementación del auto acompañamiento.

Synful – Una orquesta de modelado físico que da el pego.

¿Qué os pareció la nueva voz inglesa? A mí me gustó mucho, un buen timbre que me recuerda mucho a Bruno. A falta de más información le llamaré John Doeloid, a ver si le dan pronto los papeles, así lo podré contratar para cantar algunas de las  canciónes en inglés que tengo preparadas que no encajan con el tono y timbre de Sweet Ann.

Growl, breath!

Qué sería de muchas canciones sin estos efectos producidos por la voz!

Growl es el término inglés que se emplea para definir el efecto de la voz rasposa, muy empleado en principalmente en géneros como blues, soul, etc, que transmite rabia y energía a la interpretación. Han puesto un buen ejemplo con la canción de Joe Cocker, Unchain my heart. Es un efecto vocal bastante complicado de reproducir en Vocaloid y los resultados pueden ser muy dispares y poco naturales, ya veremos cómo se ha resuelto la implementación. Para incluir este efecto tengo un temazo ya preparado realmente increíble.

Breath, echo en falta en Vocaloid una mejor implementación de este efecto para lograr una voz más susurrante o con más explusión de aire, muy apropiado para las baladas o grandes cambios dinámicos en los comienzos o finales de frases melódicas. Este efecto no lo pude apreciar bien por la deficiente calidad del audio, pero parece ser que es modelado y vas más allá de lo que se podría conseguir subiendo BRE y modificando otros parámetros en Vocaloid.

Aunque he leído que de estos efectos ya tenían un modelo imperfecto hace años, todo parece indicar tras esta presentación que han logrado un acercamiento a su implementación.

Nota final

Buen trabajo Voctrolabs, pero por favor, debéis preparar mejores demostraciones de audio para las presentaciones! 😉

Anuncios

¿Qué hace una chica como tú en un sitio como este?

Mujer-fatal

Así se titula uno de los mayores éxitos que la madrileña banda de rock Burning publicó en el año 1978, todo un clásico del rock de la Movida Madrileña.

Musicalmente no es una gran canción, pero es sencilla, sin apenas vibratos, fácil de cantar y con poca letra. “Esto está chupado” – pensé. Y con esa premisa me dispuse a versionarla. Inocente mi…

Comencé con esta canción en Mayo y, aunque sonaba bastante bien la dejé para mejor ocasión porque el resultado era un tanto remilgado y melódico en exceso, no era capaz de insuflarle a Bruno el carácter “chuleta” del vocalista de Burning, y sonaba como el típico cantante malote del karaoke de tu barrio que, aunque entona, no sabe interpretar al cantar.

En este momento ya tengo algo de experiencia, así que apliqué los cambios necesarios para que Bruno interpretase con más chulería, como puedes apreciar en el vídeo:

Esta canción se caracteriza por un fraseo quebrado con mucha distancia tonal entre notas, y un tanto staccato, con diptongos rápidos con la primera vocal muy corta, y se arrastran mucho las consonantes f, j, m, n, s y z. Si son el principio de sílaba basta con bajar el parámetro VEL a la mitad o incluso más. Así alargamos su sonido y reducimos la duración de la vocal precendente.

Hasta me he atrevido con algunos Já! que realiza el cantante. Las onomatopeyas son difícles de lograr porque no son melódicas, suelen ser expresiones cortas con mucha variedad tonal y dinámica.

Gracias a las muchas horas que he pasado trabajando con Sweet Ann he aprendido muchísimas cosas para añadir realismo a la interpretación, y éstas son las más importantes y sobre las que trabajo, en el orden listado:

  • Entonación: al cantar se emplean las articulaciones de legato y portamento para alcanzar las notas. Determinante para un buen fraseo.
  • Pronunciación: la duración de cada fonema es determinante para obtener una pronunciación fluída y correcta al oído.
  • Dinámica: los cambios de volumen de una sílaba respecto a otra aportan naturalidad.
  • Vibrato: las oscilaciones de tono y volumen del vibrato aportan calidez a las notas largas y sostenidas, y matiz expresivo a las cortas.

En la medida que me he ido familiarizando con su uso, ha mejorado la calidad de mi trabajo y se ha reducido el tiempo empleado en la edición. Aunque encuentro un tanto limitado el editor de Vocaloid para realizar ciertas tareas, reconozco que me sorprende gratamente lo que ha mejorado el motor de síntesis, es estupendo y espero que mejore mucho más!.

El mejor Jazz con Sweet Ann: My heart belongs to daddy

My-heart-belongs-to-daddy

Qué timbre tan bonito tiene Sweet Ann (PowerFx) para la música Jazz, tanto en los registros bajos como en los altos (que es donde más brilla) es perfecta para este estilo musical.

Por supuesto, hay que modificar muchas cosas para hacer una buena canción con Ann: fonética, modulaciones, dinámica… pero eso ocurre con cualquier instrumento o voz sintética.

Estamos mal acostumbrados a que nos den el trabajo hecho y pensamos que al escuchar unas buenas “demos” a la hora de elegir un instrumento sintético para comprarlo, en este caso una voz, nos creemos que al instalar el nuevo instrumento y poner unas cuantas notas musicales ya va a sonar maravillosamente y con toda su expresión, que error tan grave…

Sweet Ann es tan sensual en su registro bajo y tan brillante en el alto, acompañada de un timbre tan hermoso…

Cuando escuchamos las “demos” que nos ofrecen en las páginas webs para vendernos algún instrumento sintético todo nos parece muy sencillo. No sabemos el tiempo, el trabajo  y sobre todo la responsabilidad que tienen los que hacen esas demos. Cuánto trabajo, cuánto tiempo han empleado intentando lograr el mejor resultado… hay que tener en cuenta que están vendiendo un producto y hay que hacerlo lo más llamativo posible.

Producir voces sintéticas no es nada fácil, y venderlas no muy rentable, (culpa también por la pirateria) Por ejemplo, Bruno y Clara son voces que no son en absoluto caras y son las voces Vocaloid mejor producidas hasta la fecha.

Y crear canciones con una interpretación, pronunciación y estilo es muy difícil. Vocaloid se creó pensando en un nuevo instrumento musical, un complemento casero para nuestra propia música.

El equipo de investigación de la Universitat Pompeu Fabra (Barcelona) ha realizado un trabajo magnifico, y continúa trabajando en muchas mejoras para Vocaloid editor y para la creación de mejores voces, mucho más sencillas de manejar.

Esta canción la he hecho en un día de trabajo, con algunos trucos, como por ejemplo, necesito que la misma voz tenga distintos registros de sonido, al principio voz grave y sensual y después voz aguda y brillante.

Para hacer esto he utilizado pistas distintas de voz, la primera con un registro sobrio y la segunda con más volumen e intensidad. Utilizando el Mixer puedes hacer que la misma voz, en la misma canción pueda tener varios volúmenes o intensidades.

El nuevo editor de Vocaloid facilita mucho la “creatividad” para salvar ciertos obstáculos a la hora de hacer las canciones, solamente hace falta tener ganas de hacer bien las cosas.

Clara le canta a España

miqueridaespanha

Una canción que utilicé para Clara como test cuando empecé a hacer las voces. “Mi querida España” de Cecilia, una cantautora española de los 70’s.

Creo que en esta canción destaca la naturalidad con la que canta Clara, sin esfuerzos y bastante legato.

Hay que modificar, o mejor dicho, ajustar bastantes silabas, sobre todo las “aes” ya que se alargan bastante las “e” y más la “s” en ciertas palabras como “querida-España” o “esta-España”, pero una vez ajustada una, uso el mejor invento creado por Microsoft: copy/paste.

Copiar y Pegar, es la mejor forma de ahorrarnos un montón de tiempo a la hora de hacer canciones. En todas las canciones hay partes que se repiten, como el estribillo. El estribillo de las canciones siempre es el mismo o debería serlo, particularmente a mi, no me gusta que sea idéntico y, aunque copio y pego, siempre hay algo que modifico para que la melodía tenga mas movimiento o variedad.

No solamente copio y pego el estribillo, hay frases sueltas o trocitos pequeños que se repiten y también utilizo este sistema y posteriormente hago las modificaciones que sean, tanto en la melodía como en el ritmo de las notas y se ahorra mucho tiempo.

Hay varias formas de copiar y pegar, anteriormente en V2 solamente podíamos seleccionar lo que queríamos y copiar, ahora con V3 podemos dividir la melodía en partes.

partes

Una vez partido el trozo que deseamos (p.e. el estribillo) podemos pegarlo posteriormente en el lugar que deseemos o incluso en otra pista con una voz distinta, y después modificarlo si queremos. Es una gran mejora incluída en el nuevo editor.

Más adelante, tanto Alberto como yo queremos hacer videos tutoriales demostrativos de todas las cosas que solemos mencionar en los artículos sobre cómo hacemos las canciones, para la sección de Tutoriales.  A ver si disponemos del tiempo necesario!

Download “Mi querida España” VSQX