La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Clasificación de ficheros MIDI mediante el uso de metadatos

Presentaciones similares


Presentación del tema: "Clasificación de ficheros MIDI mediante el uso de metadatos"— Transcripción de la presentación:

1 Clasificación de ficheros MIDI mediante el uso de metadatos
Autor: Tomás Pérez García Director: José Manuel Iñesta Quereda Memoria de suficiencia investigadora Programa de doctorado: Aplicaciones de la Informática Trabajo de informática musical (62570)

2 Índice Introducción metamidi Experimentos Conclusiones
Pista de melodía Género musical Conclusiones Desarrollo de metamidi como parte de esta memoria para la extracción de descriptores y metadescriptores Experimentos para probar la extracción de información de ficheros MIDI

3 Introducción Los metadatos permiten organizar, indexar, y recuperar información musical. Los metadatos son un área de importancia creciente en investigación. Las redes sociales están impulsando el uso de metadatos. Metadatos para indexar, organizar  biblioteca Información musical, mood, uso

4 metamidi En el contexto de este trabajo se ha desarrollado metamidi como una herramienta para extraer metadatos de ficheros MIDI: Globales Pistas, contenido, descripción y metaeventos Información global al fichero Información repartida en pistas

5 metamidi Metadatos globales del fichero MIDI: Metadatos de pista:
nombre, textos, tamaño, formato, numero pistas, resolución, tempo, métrica, tonalidad, … Metadatos de pista: De tipo texto: nombre, instrumento, letras, marcadores, … De otros tipos: instrumentación, percusión (batería, latina, otros) Contenido: duración, ocupación, polifonía, rango de notas

6 metamidi Disponible desde la página del grfia *.c, *.h, DTD, XSD Desarrollado en ANSI C versión 4.2.4 Open source Testeado bajo Linux. Aplicación gratuita disponible en la web del grupo

7 metamidi metamidi –{r|x|l} file [-o fileoutput] Formatos: Salida:
-r: register -l: line -x: XML Salida: Salida estándar Fichero (opcion –o) Diferentes formatos de salida, -r para ver información, -l (linea, campos separados por “;”) –x (salida XML) Salida en salida estándar por defecto, con la opción de grabar en un fichero

8 Experimentos Se va a mostrar el uso de los metadatos en la resolución de dos problemas típicos en el ámbito de recuperación de información musical: Selección de la pista de melodía Clasificación de género musical 2 problemas típicos en el ámbito MIR

9 Selección de la pista de melodía
Descriptores usados Cantidad información musical: occupation rate Las melodías suelen ser monofónicas: polyphony duration rate max polyphony average polypohony Rango de notas: low pitch high pitch Conocer la pista de la melodía es útil en muchas aplicaciones, ya que la búsqueda de información se suele realizar sobre porciones de esta. La melodía de una canción es la parte cantable de una pieza musical, lo que se tararea (no confundir con la letra de la misma). Como deber ser una melodía y que descriptores de metamidi se van a utilizar Es por ello que la cantidad de información no puede ser baja, pero tampoco demasiado alta (ocupación) El hecho deban ser cantables también implica que no deban existir muchas notas sonando a la vez (polifonía) Para que sea cantable el rango de notas debe ajustarse a la voz humana (alturas) range pitch

10 Selección de la pista de melodía
Training: se asume una distribución Gausiana N(,2) para los valores de cada descriptor d, P(d|M) y P(d|M) se obtienen de las pistas etiquetadas como melodía y no melodía. Para cada descriptor se calcula la función de distribución de probabilidad de melodía y no melodía

11 Selección de la pista de melodía
Test: Se usa el teorema de Bayes para calcular la probabilidad de que una pista sea melodía, dado el valor del descriptor d Para cada una de las i-pistas

12 Selección de la pista de melodía
La decisión se toma usando el máximo valor para todas las pistas (i) del fichero con una probabilidad superior al umbral () TP  supera umbral y está etiquetada como melodía FP  supera umbral y No está etiquetada de melodía FN  No supera umbral y está etiquetada como melodía TN  No supera umbral y No está etiquetada como melodía

13 Selección de la pista de melodía
Corpus utilizado Conjuntos agrupados por géneros Conjuntos con sufijos 200 son más compactos y uniformes Ficheros Pistas Pistas de melodía Clas200 200 688 205 Clas 130 627 135 Jazz200 761 Jazz 1019 4218 1035 Kar200 1681 206 Kar 1357 11524 1331

14 Selección de la pista de melodía
Experimento 1: 10-fold cross-validation Corpus Descr. S% P R F Clas200 Hight pitch 0.10 99,0 0,99 Clas Avg poly & low pitch 0,202 78,46 0,78 0,97 0,87 Jazz200 0,052 95,0 0,98 Jazz 94,50 0,95 Kar200 Max poly 0,10 71,50 0,72 1,0 0,83 Kar 69,86 0,70 0,82 Altura de las notas muy relevante en Clásica y Jazz Sin embargo en popular la altura de las notas pierde influencia y el mejor es max poly. Max poly se mantiene estable, ya que en clásica y jazz tenía valores similares. Valores de umbral de probabilidad muy bajos. El hecho de que los descriptores referentes a las alturas y polifonía ofrezcan los mejores resultados corrobora las conclusiones de otros trabajos anteriores del grupo de investigación al que pertenezco con otras técnicas.

15 Selección de la pista de melodía
Experimento 2 Train con conjuntos “200” Test con los otros Train Test Descr. S% P R F Clas200 Clas Avg poly & low pitch 0,252 73,08 0,73 0,99 0,84 Jazz200 Jazz 0,052 94,80 0,97 0,98 Kar200 Kar Max poly 0,10 69,86 0,70 1,0 0,82 Se vuelve a dar la misma situación del experimento anterior Altura de las notas muy relevante en Clásica y Jazz Sin embargo en popular la altura de las notas pierde influencia y el mejor es max poly. Max poly se mantiene estable, ya que en clásica y jazz tenía valores similares. Valores de umbral muy bajos.

16 Selección de la pista de melodía
max polyphony avg polyphony low pitch high pitch Gausianas de melodía y no melodía altamente coincidentes lo que explica el bajo umbral de probabilidad Gaussianas de melodía y no melodía para los descriptores en los que se han obtenido los mejores resultados. Esto explica el bajo umbral de probabilidad.

17 Selección de la pista de melodía
Umbrales de probabilidad muy bajos Alto grado de dependencia de los descriptores con el conjunto de datos Max polyphony es el único descriptor estable Comparación con Rizo(2006) Valores ligeramente inferiores   [0,05 - 0,25], frente  = 0,50 en todos los casos Un sistema sencillo como este no es competitivo frente a sistemas más sofisticados Conclusiones de este experimento Existe un alto grado de dependencia entre los mejores descriptores y el conjunto de datos. Max polyphony es el único descriptor estable para todos aunque con valores mediocres. El umbral de probabilidad es muy bajo. Comparación con Rizo: Experimentos similares para: clas200, jazz200, kar200; clas200-clas, jazz200-jazz, kar200-kar Resultados de Succes similares, pero con umbral muy bajo, en Rizo umbral siempre 0,50

18 Clasificación de género musical
Tiendas: organizar Usuarios: buscar o aconsejar Multimodalidad, usar información de diferente naturaleza Metadatos referentes a la instrumentación Información armónica (acordes) Para que se usa el género musical? Para organizar o aconsejar música Multimodalidad, información de diferente naturaleza o fuentes de información metadatos de instrumentos, extraídos con metamidi acordes, extraídos manualmente

19 Clasificación de género musical
Early fusion: fusionar características antes de clasificar H = 237 I = 128 GM + 3 ctos. percusión Acordes Instrumentos Fusionar las características en un único vector de características antes de clasificar 1|0 indica la ausencia o presencia de una determinada característica H=237 acordes diferentes I = 128 instrumentos del GM + 3 conjuntos de percusión (batería, percusión latina, otros) Lo que nos va a permitir estudiar si la percusión tiene influencia en el resultado x = (1,0,0,0,0,0,0,0,1,0, …,0,0,1,0,0,0,0,0, …,1,0,0) Percusión

20 Clasificación de género musical
Se usa la regla de Bayes para calcular la probabilidad de que un fichero MIDI pertenezca a la clase cj, asignando dicho fichero a la clase que maximiza la probabilidad a posteriori. AMI como sistema de selección de características Cuanta información ofrece una característica Ranking de relevancia

21 Clasificación de género musical
Conjunto de datos: Jerarquía de clases: 3  9 Académica (235) Jazz (338) Popular (283) Barroca (56) Pre-bop (178) Celta (99) Clásica (50) Bop (94) Blues (84) Romanticismo (129) Bossanova (66) Pop (100) Resolver 2 problemas: clasificación de 3 Géneros y de 9 Géneros Académica se divide en Barroca, Clásica y Romanticismo Jazz se divide en Pre-bop, bop y Bossanova Popular se divide en Celta, Blues y Pop

22 Clasificación de género musical
Trabajo previo Uso de información armónica (Pérez-Sancho, 2009) Prioris, instrumentos, percusión, acordes 10-fold cross-validation Prioris Instrumentos Percusión Acordes Experimento 1 x Experimento 2 Experimento 3 Experimento 4 Experimento 5 Experimento 6 Existe un trabajo previo realizado por Carlos Perez que vamos a utilizar de referencia, en dicho trabajo se utilizó solo información armónica Se realizan 4 experimentos solo con instrumentos: en función del cálculo de la probabilidad a priori y del uso de la percusión Finalmente se realizan 2 experimentos de fusión (acordes + instrumentos), con o sin percusión Fusión

23 Clasificación de género musical
Instrumentos (Experimento 1) 3-G: 93±2 % (74) 9-G: 70±3 % (72) Priori Instrumentos + percusión Académica Jazz Popular Bar Clas Rom Pre Bop Bos Cel Blu Pop Barroca 31 1 24 Clásica 6 44 Romanticismo 98 121 Prebop 165 7 86 3 5 Bossanova 51 9 Celta 2 96 Blues 8 60 10 4 76 Mejores resultados en el experimento 1, con priori, instrumentos y percusión Explicar 3-G Explicar 9-G, paricularidad de clásica y Bop

24 Clasificación de género musical
100 3-G 9-G 90 80 70 El uso de los instrumentos mejora significativamente la clasificación de género frente al uso de los acordes en el problema de los 3-G. Solo el experimento 1 ofrece mejoras significativas en el el problema de los 9-G frente a luso de los acordes. 60 50 Acordes Intrumentos priori priori no priori no priori percusión percusión

25 Clasificación de género musical
Fusión multimodal: experimento 6 3 Clases: 95,8  1,0 % (99) 9 Clases: 81  4 % (247) Acordes + Instrumentos + percusión Académica Jazz Popular Bar Clas Rom Pre Bop Bos Cel Blu Pop Barroca 34 5 17 Clásica 21 24 Romantic 7 13 108 1 Prebop 155 18 33 57 2 Bossanova 60 4 Celta 99 Blues 76 3 84 En clásica y en bop ya se clasifica, cosa que no ocurría solo con instrumentos Los errores en 9-G se comenten mayoritariamente en sub-géneros pertenecientes al mismo género raíz.

26 Clasificación de género musical
100 3-G 9-G 90 80 70 La fusión de características ofrece mejoras frente al uso por separado. En el problema de los 3-G la fusión ofrece mejoras significativas frente al uso de acordes y mejoras poco significativas frente al uso de instrumentos. En el problema de los 9–G las mejoras son significativas frente al uso por separado de los acordes o instrumentos. 60 50 Acordes Intrumentos Multimodal sin perc con perc.

27 Clasificación de género musical
Estudio 50 primeras características Importancia similar, 14% de cada tipo 85% de ellas coincide en 3-G y 9-G Estudio de las 50 primeras características en donde la tasa de acierto se aproxima al máximo en 3-G y 9-G Entre las 50 primeras están aproximadamente el 14% de los acordes y el 14% de los instrumentos incluyendo los 3 conjuntos de percusión 85% de esas 50 primeras características coinciden, lo que explica que en 9-G los errores sean entre sub-géneros del mismo género

28 Clasificación de género musical
Fusión mejora frente al uso separado 3-G mejoras poco significativas 9-G mejoras significativas 85% características coinciden en 3-G y 9-G errores en 9-G entre sub-géneros con el mismo género raíz 9-G tasa de acierto va creciendo con el número de características puede indicar que el conjunto de entrenamiento no sea lo suficientemente grande

29 Conclusiones metamidi como una herramienta para la extracción de descriptores y metadescriptores de ficheros MIDI estándar Metadatos en la resolución de problemas de recuperación de información musical Búsqueda de la pista de la melodía resultados no han sido concluyentes dependientes del conjunto de datos bajo grado de confianza

30 Conclusiones Clasificación de género musical
fusión de los metadatos instrumentales con información armónica, mejora el uso por separado importancia de herramientas de extracción de metadatos en organización, indexación y acceso La buena realización de los ejemplos muestra el poder de la extracción automática de metadatos en la resolución de problemas en este ámbito

31 Publicaciones “metamidi: a tool for automatic metadata extraction from midi files”. Workshop on Exploring Musical Information Spaces, ECDL 2009, Corfu, Greece. “Fusión de información armónica e instrumental para la clasificación de géneros musicales”. Workshop de Reconocimiento de Formas y Análisis de Imágenes (AERFAI 2010), Valencia. “Harmonic and instrumental information fusion for musical genre classification”. ACM Multimedia Workshop on Music and Machine Learning (MML 2010), Florence (Italy). Estas son las 3 publicaciones relacionadas con este trabajo.

32 ¿Preguntas?


Descargar ppt "Clasificación de ficheros MIDI mediante el uso de metadatos"

Presentaciones similares


Anuncios Google