Módulo 1
Introducción a los datos. Los datos. ¿Qué son los datos? Obtención de los datos. Conceptos de variable, valor, unidad y observación. Población y muestra. Representatividad y sesgos de una muestra de datos. Cuestiones de ética y privacidad. Tipos de datos: datos numéricos (enteros y de punto flotantes), cadenas de caracteres, fechas. Variables categóricas. Exploración de los datos usando herramientas en línea como Google Sheets. Tablas dinámicas.
Módulo 2
Conceptos de programación. Variables y entornos de programación. Estructuras de datos. Plataforma “R” para el análisis de datos. Estructuras de control
Módulo 3
Visualización de datos. Visualización de los datos. Gráficos de barras. Gráficos de barras apiladas. Gráficos de dispersión (scatter plots). Histogramas. Polígonos de frecuencia. Gráficos de densidad. Comparación de distribuciones. Gráficos de cajas (box plots) y de violines. Gráficos de densidad apiladas.
Módulo 4
Limpieza y preparación de datos. La necesidad de la preparación de los datos para el análisis. Evaluación de la calidad de los datos. Datos duplicados. Datos faltantes. Técnicas de imputación de datos faltantes. Compleción por valores medios y medianas segmentada y no-segmentada.
Modulo 5
Conceptos de probabilidad y estadística. Concepto de distribución de parámetros. Métricas descriptivas. Media, mediana y moda. Cuantiles. Cuartiles. Desvío estándar y distancia intercuartil. Sensibilidad a los outliers. Elementos de inferencia estadística. Elementos de pruebas estadísticas. Concepto de p-valor y significancia.
Módulo 6
Análisis exploratorio de los datos. Desarrollo de compresión sobre los datos. El ciclo del análisis exploratorio. Generación de una pregunta. Búsqueda de respuestas a través de la visualización y el modelado. Revisión de la pregunta original.
Módulo 7
Ciclo de vida de un proyecto de datos. El modelo de proceso CRISP-DM (Cross-industry standard process for data mining). El modelo de proceso ASUM-DM (Analytics Solutions Unified Method for Data Mining/Predictive Analytics). Presentación de un problema o necesidad. Contextualización y formulación de la pregunta (business understanding). Obtención y preparación de los datos apropiados. Generación de una visión del resultado / herramienta / producto final. Visualización de los pasos necesarios para llegar a ese objetivo.
Módulo 8
Modelado de los datos. Concepto de modelo estadístico de los datos. Utilidad de los modelos como herramientas de inferencia y como técnica de resumen de los datos. Conceptos de parámetros e hiperparámetros. Variables predictoras y variable objetivo. Modelo lineal de regresión, simple y múltiple. Obtención de los parámetros por cuadrados mínimos. Evaluación del modelo ajustado. Coeficiente de determinación. Residuos. Dispersión en los residuos. qq-plots. Palanca y observaciones influyentes. Interpretación de los resultados de un modelo lineal. Error en los estimadores.
Módulo 9
Elementos de inferencia causal. Diferencia entre relaciones asociativas y relaciones causales. La importancia de la inferencia causal. La paradoja de Simpson. Variables confundidoras. Variables de control. Variables de control categóricas. Variables de control continuas. Modelos lineales con variables de control. Modelos con términos de interacción.