Universidad de Castilla-La Mancha
 
Escuela Superior de Ingeniería Informática

 

  cambiar a curso:   2016-17   2018-19



Grado en Ingeniería Informática


TRABAJOS FIN DE GRADO
curso: 2017-18

Aplicación de ciencia de datos a medicina personalizada: clasificación de mutaciones genéticas en tumores.


Tecnologías Específicas

Computación
 


Descripcion y Objetivos

Con el avance de la tecnología y la reducción de costes en los estudios genéticos, la medicina personalizada se vislumbra como un camino exitoso en la mejoría de la definición de los tratamientos para el par . Un caso de estudio es el tratamiento del cáncer.

Una vez que el genoma de un tumor cancerígeno ha sido secuenciado, puede sufrir miles de mutaciones. El desafío es distinguir entre las mutaciones que contribuyen a un crecimiento del tumor (llamadas drivers) y las mutaciones neutras (llamadas passengers). Actualmente esta clasificación se hace manualmente, lo que hace que la tarea sea muy costosa en tiempo y no escalable a toda la población. Con el objetivo de avanzar en la automatización de esta tarea, el Memorial Sloan Kettering Cancer Center (MSKCC) ha puesto a disposición de la comunidad científica una base de datos con miles de mutaciones anotada por expertos. Esta base de datos ha dado lugar a un desafío/competición recogida en uno de los congresos más rigurosos en técnicas de minería de datos (NIPS'2017). El objetivo de este trabajo fin de grado no es obviamente ganar dicha competición, si no  realizar un estudio de ciencia de datos sobre dicho conjunto de datos para identificar los procesos y algoritmos más eficaces para la clasificación de las mutaciones en drivers/passengers. 

Aunque el problema es suficientemente difícil de por sí, además la base de datos está formada por un conjunto de evidencias clínicas en forma de texto no estructurado, lo que requerirá analizar dicho texto y transformarlo en representaciones estructuradas más subceptibles de ser tratadas por los algoritmos de minería de datos.

 


Metodología y Competencias

Metodología:

  1. Revisar el contexto del problema y la literatura disponible.
  2. Realizar un análisis exploratorio de los datos existentes.
  3. Transformar las representaciones no estructuradas (textuales) en representaciones estructuradas usando técnicas de procesamiento del lenguaje natural.
  4. Sobre la partición de datos de entrenamiento diseñar procesos de minería de datos centrados en:
    1. Preprocesamiento de datos (selección de variables, construcción de variables, discretización, etc.)
    2. Identificación de los algoritmos de minería de datos que mejor encajen en el problema objetivo. Aplicar realizando selección de modelos en función de los parámetros.
    3. Validación de los modelos obtenidos.
    4. Iterar refinando los pasos anteriores hasta determinar uno o varios modelos exitosos.
  5. Documentar todo el proceso anterior para que sea repetible.
  6. Estimar la bondad de los modelos finales (seleccionados) sobre el conjunto de datos de test reservado a tal efecto.
  7. Redactar la memoria.

Competencias:

Se trabajarán principalmente (en distinto grado) las siguientes competencias específicas de la tecnología de computación:

  • Capacidad para conocer los fundamentos teóricos de los lenguajes de programación y las
    técnicas de procesamiento léxico, sintáctico y semántico asociadas, y saber aplicarlas para la
    creación, diseño y procesamiento de lenguajes.

  • Capacidad para evaluar la complejidad computacional de un problema, conocer estrategias algorítmicas que puedan conducir a su resolución y recomendar, desarrollar e implementar aquella que garantice el mejor rendimiento de acuerdo con los requisitos establecidos.

  • Capacidad para conocer los fundamentos, paradigmas y técnicas propias de los sistemas
    inteligentes y analizar, diseñar y construir sistemas, servicios y aplicaciones informáticas
    que utilicen dichas técnicas en cualquier ámbito de aplicación.

  • Capacidad para adquirir, obtener, formalizar y representar el conocimiento humano en una
    forma computable para la resolución de problemas mediante un sistema informático en
    cualquier ámbito de aplicación, particularmente los relacionados con aspectos de
    computación, percepción y actuación en ambientes entornos inteligentes.

  • Capacidad para conocer y desarrollar técnicas de aprendizaje computacional y diseñar e
    implementar aplicaciones y sistemas que las utilicen, incluyendo las dedicadas a extracción
    automática de información y conocimiento a partir de grandes volúmenes de dato.

 


Medios a utilizar

Ordenadores personales, compiladores y entornos de programación. Todo disponible en la ESIIAB.

 


Bibliografía

Libros y manuales de aprendizaje automático, procesamiento del lenguaje natural y ciencia/minería de datos. Libros y manuales de lenguajes de programación y librerías específicas (machine learning, pln, etc.). Todo disponible en la ESIIAB y/o en internet.

 


Tutores


GAMEZ MARTIN, JOSE ANTONIO
ARIAS MARTINEZ, JACINTO
 

Alumno


MACHADO HERNÁNDEZ, YUNIOR

 

 

Sindicación  Sindicación  Sindicación  Sindicación

Curso: 2017-18
© Escuela Superior de Ingeniería Informática
Edificio Infante Don Juan Manuel
Avda. de España s/n
02071 Albacete
Tfno: 967 59 92 00 - Fax: 967 59 92 24

informatica.ab@uclm.es
aviso legal
generar código QR de la página