Universidad de Castilla-La Mancha
 
Escuela Superior de Ingeniería Informática

 

  cambiar a curso:   2020-21   2022-23



Grado en Ingeniería Informática


TRABAJOS FIN DE GRADO
curso: 2021-22

Estudio de técnicas de explicabilidad aplicadas a tareas de clasificación en música y audio.


Tecnologías Específicas

Computación
 


Descripcion y Objetivos

La disciplina conocida como "Music Information Retrieval (MIR)" en inglés, que podría denominarse Recuperación de Información Musical en español, es uno de los campos de aplicación de la Inteligencia Artificial que más en auge están actualmente. Existen muchos subcampos de gran interés como pueden ser el de detección de género, los sistemas de recomendación, la generación de playlists o aquellos modelos que tratan con las emociones asociadas. Incluso, hay trabajos que van un paso más allá e intentan crear música, por ejemplo, a partir del estilo musical de un compositor.

Cuando se trabaja con música (o audio en general) la entrada está asociada a procesamiento de la señal, pero actualmente los datos de entrada suelen estar enriquecidos con etiquetas que pueden proporcionar mucha información (autor, cantante, género, año, tema, etc…). Incluso, si es una canción, se puede adjuntar el texto con sus letras. Hay por tanto mucha información disponible, que a veces se puede encontrar en datasets ya publicados. Dos de los más conocidos y con más datos son: Million Song Dataset - MSD (enlace: http://millionsongdataset.com/) y MuMu (https://www.upf.edu/web/mtg/mumu). En el ámbito de las emociones podemos encontrar diferentes datasets que son de menor dimensionalidad.

Por otro lado, en el campo de la Inteligencia Artificial, desde hace unos años ha irrumpido con fuerza la denominada IA explicable, XAI (del inglés eXplanaible Artificial Intelligence). A grandes rasgos, que un modelo de IA sea explicable significa que se comprende cómo y por qué el algoritmo toma las decisiones o realiza las predicciones y que se tiene la capacidad de justificar los resultados que produce. Aplicado a la tarea de clasificación supervisada en machine learning, donde se asigna automáticamente una categoría a un caso, se suele intentar explicar cuáles han sido las características/valores que han resultado determinantes para dicha clasificación. La explicabilidad e interpretabilidad está generando nuevas metodologías y herramientas, y sobre todo se han empleado en explicar modelos de deep learning aplicados a imágenes, destacan SHAP, los modelos de gradiente integrado o los de mapas de activación (GradCAM, por ejemplo). Sin embargo, ha ganado gran popularidad una técnica independiente de modelo, y que además se ha aplicado exitosamente a conjuntos de datos distintos de imágenes: LIME.

En concreto, existe un trabajo reciente de investigación, que se denomina AudioLIME y que aplica esta técnica de explicabilidad tomando como input el audio y separándolo en los diferentes canales (voz, y separación en instrumentos). Este 2021 han creado una metodología denominada LEMONS (Listenable Explanations for Music recOmmeNder Systems). Todo el código de los algoritmos y los enlaces a los diferentes artículos de investigación se pueden encontrar en su github:

https://github.com/CPJKU/audioLIME/blob/master/README.md

Esta línea de investigación será el punto de partida de este trabajo fin de grado, siendo el primer paso entender bien el funcionamiento de AudioLIME y quizás proponer mejoras o variantes. Además, pretendemos explorar algunas de ideas propias, que pasan por el uso de los espectogramas (aplicando el MFCC -- Mel Frequency Cepstral Coefficient -- cualquier audio se puede transformar en una imagen) y el estudio de alguna otra técnica diferente de explicabilidad y compararla con LIME. También creemos que enriquecer la entrada con etiquetas, ya sean reales, o inferidas, podría ser algo interesante a explorar. Hay decisiones que tomar para definir la tarea, como es qué dataset o datasets se van a emplear o qué tarea en concreto se va a abordar. Estas decisiones necesitarán previamente un análisis que forma parte también del desarrollo de este trabajo. 

 


Metodología y Competencias

1. Estudio de los artículos y del código de AudioLIME

2. Desarrollo de nuestras propias variantes basados en él

3. Búsqueda y documentación sobre los distintos datasets de música disponible

4. En base a lo anterior, a los atributos y clase disponible, proceder a la selección del conjunto (o conjuntos) y de la tarea a realizar (por ejemplo, clasificación de emociones)

5. Estudiar la posibilidad de integrar otros atributos calculados o inferidos 

6. Propuesta de nuestras propias técnicas para explicabilidad en música 

7. Realización de la experimentación 

8. Comparativa de resultados según diferentes perspectivas (algoritmo, parametrización, dataset, etc..)

9. Análisis general de los resultados y de la aplicabilidad de las técnicas desarrolladas y estudiadas.

10. Redactar la memoria.

Competencias:

Este TFG permite completar las competencias específicas [CM3], [CM4], [CM5] y [CM7] de la Intensificación de Computación, es decir, se trabajarán principalmente (en distinto grado) las siguientes competencias específicas de la tecnología de computación:

  • [CM3] Capacidad para evaluar la complejidad computacional de un problema, conocer estrategias algorítmicas que puedan conducir a su resolución y recomendar, desarrollar e implementar aquella que garantice el mejor rendimiento de acuerdo con los requisitos establecidos.
  • [CM4] Capacidad para conocer los fundamentos, paradigmas y técnicas propias de los sistemas inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas que utilicen dichas técnicas en cualquier ámbito de aplicación.
  • [CM5] Capacidad para adquirir, obtener, formalizar y representar el conocimiento humano en una forma computable para la resolución de problemas mediante un sistema informático en cualquier ámbito de aplicación, particularmente los relacionados con aspectos de computación, percepción y actuación en ambientes entornos inteligentes.
  • [CM7] Capacidad para conocer y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir de grandes volúmenes de datos.
 


Medios a utilizar

PC de características estándar y con conexión a Internet.

Recursos online, como manuales, tutoriales y los datasets disponibles.

 


Bibliografía

  • Apuntes de las asignaturas Minería de Datos y Sistemas Inteligentes
  • Manuales del lenguaje Python: https://docs.python.org/3/tutorial/
  • Manual de la librería Pandas: https://pandas.pydata.org/
  • Manual de la librería Seaborn: https://seaborn.pydata.org/
  • Manual de la librería Numpy: https://numpy.org/doc/stable/user/tutorials_index.html
  • Manual de librería Librosa: https://librosa.org/doc/latest/index.html
  • Cursos específicos (modalidad gratuita) de sistemas de recomendación como los ofrecidos por Coursera y Google developers:
    •  https://developers.google.com/machine-learning/recommendation
    • https://www.coursera.org/learn/recommender-systems-introduction?specialization=recommender-systems      
  •  Plataforma sobre información acústica y musical pública que corresponde a diversos grupos de investigación de la Universidad Pompeu Fabra: http://acousticbrainz.org/
 


Tutor


FLORES GALLEGO, MARIA JULIA
 

Alumno


GARCÍA CARRETERO, DANIEL
 

 

Sindicación  Sindicación  Sindicación  Sindicación

Curso: 2021-22
© Escuela Superior de Ingeniería Informática
Edificio Infante Don Juan Manuel
Avda. de España s/n
02071 Albacete
Tfno: 967 59 92 00 - Fax: 967 59 92 24

informatica.ab@uclm.es
aviso legal
generar código QR de la página