Duración
Septiembre a Marzo, 4.5 créditos
Acerca de este curso
Este curso es de carácter fundamental y es el primer contacto con el aprendizaje automático en este máster, por tanto, contiene conocimientos que serán profundizados y/o ampliados en otros cursos. Se centra en introducir la disciplina de ciencia de datos y profundiza en los aspectos de evaluación, preprocesamiento y clasificación supervisada.
Que aprenderé
En este curso aprenderás los conceptos básicos del aprendizaje automático y la ciencia de datos, ¿qué es?, ¿qué disciplinas abarca?, ¿qué aplicaciones tiene?, etc. En particular conocerás los algoritmos básicos de clasificación supervisada y las técnicas necesarias para evaluar el rendimiento de los algoritmos y de los modelos obtenidos. Tambien aprenderás como preprocesar los datos para obtener así modelos de mayor calidad (simples, comprensibles, eficientes, etc.). Por último, aprenderás a poner en funcionamiento las técnicas estudiadas mediante dos tipos de ejercicios prácticos: usando una herramienta tipo suite como WEKA y programando tus propios scripts y algoritmos en R.
Prerrequisitos
Para seguir el curso convenientemente se requieren conocimientos matemáticos (álgebra lineal, probabilidad, optimización, ...), un nivel adecuado de programación (Java, R, etc.), conocimientos básicos de informática (instalar aplicaciones, etc) y capacidad para manejarse con bibliografía en inglés.
Unidades
- Módulo 1: Introducción a la minería de datos y ciencia de datos.
- 1.1. Motivación.
- 1.2. Minería y ciencia de datos, ejemplos.
- 1.3. El proceso de KDD. CRISP-DM.
- 1.4. Tareas, técnicas y herramientas.
- Módulo 2: Técnicas de validación y evaluación.
- 2.1. Entrenamiento y validación, hold-out, cross-validation.
- 2.2. Evaluación con costes y desbalanceo.
- 2.3. Análisis ROC.
- Módulo 3: Algoritmos básicos de aprendizaje supervisado.
- 3.1. Métodos basados en instancias/vecinos (kNN).
- 3.2. Árboles de decisión.
- 3.3. Clasificación probabilística - Naive Bayes.
- 3.4. Redes neuronales.
- Módulo 4: Preprocesamiento de datos.
- 4.1. Integración, manipulación y visualización.
- 4.2. Selección de variables.
- 4.3. Discretización.
- 4.4. Selección de instancias (prototipos).
- 4.5. Valores imperfectos, ruido, datos perdidos.
- Módulo Práctico: Weka, R y Kaggle.
Profesores del curso
María José del Jesus Díaz
María José es Profesora Titular de Universidad en el Departamento de Informática (DI) de la Universidad de Jaén (UJA). Sus líneas de investigación se centran en el área de la minería de datos, metaheurísticas, sistemas difusos evolutivos y sinergias entre estos campos. Ha publicado más de 40 trabajos en revistas internacionales indexadas en JCR y más de un centenar de comunicaciones en congresos internacionales y nacionales. Ha participado en más de 20 proyectos de invstigación nacionales y autonómicas, siendo investigadora responsable de 6 de ellos. Es directora del grupo de investigación Sistemas inteligentes y minería de datos (SIMIDAT) de la Universidad de Jaén.
José Antonio Gámez Martín
José Antonio es Catedrático de Universidad en el Departamento de Sistemas Informáticos (DSI) de la Universidad de Castilla-La Mancha (UCLM). Sus lineas de investigación se centran en el aprendizaje automático, minería de datos, metaheurísticas y los modelos gráficos probabilísticos y, en especial, en las intersecciones y sinergias entre estas líneas de investigación. Ha sido co-responsable de distintos eventos en estas líneas (PGM'02, CAEPIA'11, MAEB'12, CAEPIA'15 y MAEB'16) y publicado un centenar de artículos en revistas y congresos internacionales.
José Hernández Orallo
José es Profesor Titular de Universidad en el Departamento de Sistemas Informáticos y Computación (DSIIC) de la Universidad Politécnica de Valencia (UPV). Ha trabajado en diferente áreas de la inteligencia artificial, el aprendizaje automático, la minería de datos y los sistemas de información. Ha publicado cuatro libros y más de un centenar de artículos de revistas y conferencias.
Francisco Charte Ojeda
Francisco es profesor del área de Arquitectura y tecnología de computadores en el Departamento de Informática (DI) de la Universidad de Jaén (UJA). Es autor de una veintena de trabajos de investigación (aportaciones a congresos y publicaciones en revistas) y más de un centenar de libros didácticos sobre informática (lenguajes de programación, sistemas operativos, desarrollo web, etc.).
Fernando Martínez Plumed (TA)
Fernando Martínez Plumed es doctor en informática e investigador en inteligencia artificial en el Departamento de Sistemas Informáticos y Computación (DSIC) en la Universidad Politécnica de Valencia (UPV) y profesor del máster de Big Data Analytics en dicha universidad. Sus intereses abarcan varias áreas de la inteligencia artificial, el aprendizaje automático, la programación inductiva, los sistemas cognitivos, la ciencia de datos y la visualización.
Jacinto Arias (TA)
Jacinto Arias es investigador predoctoral en la Universidad de Castilla-La Mancha en el grupo de Sistemas Inteligentes y Minería de Datos. Su trabajo se centra en el estudio de tecnologías de procesamiento de grandes volúmenes de datos orientados a los modelos gráficos probabilísticos. Su interés principal es resolver problemas reales de ciencia de datos con nuevas tecnologías de computación en la nube.