UNIVERSIDAD NACIONAL DE SAN MARTÍN

Diplomatura en Ciencia de Datos

Nos encontramos en una época de transformación digital a nivel global. La disponibilidad de grandes volúmenes de datos (Big Data) y la aparición de técnicas disruptivas para analizarlos y extraer conocimiento, información y valor de ellos (principalmente la Inteligencia Artificial), están cambiando la forma en que se desarrollan las actividades productivas y sociales.
En este contexto la Ciencia de Datos, entendida como el conjunto principios, definiciones de problemas, algoritmos y procesos necesarios para extraer patrones no obvios y útiles a partir de grandes conjuntos de datos, se ha transformado en un campo disciplinar de gran atracción que se espera provea soluciones para las demandas del mundo actual y del venidero. Por tal motivo se hace necesario proveer una adecuada formación en los conceptos asociados a este campo disciplinar.

Esta diplomatura tiene como objetivo adentrar a los y las estudiantes en el mundo del análisis de datos a través de la práctica. Se busca proveer una visión global del proceso de la ciencia de datos y permitir a quienes cursan experimentar todos los pasos del proceso, formando un espíritu crítico y una capacidad de análisis de los datos basados en el contacto directo con el objeto de estudio desde el primer módulo. Además, se introducen herramientas y técnicas de un nivel básico, pero que son suficientes para la realización de una amplia gama de tareas del científico de datos. De esta manera, al finalizar la diplomatura, se contará con una visión global del proceso de la ciencia de datos, que permitirá una profundización ulterior.

Fundamentación:

Nos encontramos en una época de transformación digital a nivel global. La disponibilidad de grandes volúmenes de datos (Big Data) y la aparición de técnicas disruptivas para analizarlos y extraer conocimiento, información y valor de ellos (principalmente la Inteligencia Artificial), están cambiando la forma en que se desarrollan las actividades productivas y sociales.

En este contexto la Ciencia de Datos, entendida como el conjunto principios, definiciones de problemas, algoritmos y procesos necesarios para extraer patrones no obvios y útiles a partir de grandes conjuntos de datos, se ha transformado en un campo disciplinar de gran atracción que se espera provea soluciones para las demandas del mundo actual y del venidero. Por tal motivo se hace necesario proveer una adecuada formación en los conceptos asociados a este campo disciplinar.

Esta diplomatura tiene como objetivo adentrar a los y las estudiantes en el mundo del análisis de datos a través de la práctica. Se busca proveer una visión global del proceso de la ciencia de datos y permitir a quienes cursan experimentar todos los pasos del proceso, formando un espíritu crítico y una capacidad de análisis de los datos basados en el contacto directo con el objeto de estudio desde el primer módulo. Además, se introducen herramientas y técnicas de un nivel básico, pero que son suficientes para la realización de una amplia gama de tareas del científico de datos. De esta manera, al finalizar la diplomatura, se contará con una visión global del proceso de la ciencia de datos, que permitirá una profundización ulterior.

Objetivos:

• Proporcionar un marco formativo adecuado referido al objeto de estudio de la ciencia de datos.
• Capacitar para la resolución de problemas novedosos que se plantean en este campo.
• Generar recursos humanos capacitados para un área de fuerte desarrollo y relevancia socioeconómica.

 

Quienes aprueben las actividades previstas recibirán un Diploma en Ciencia de Datos.

Plan de estudios:

Módulo 1
Introducción a los datos. Los datos. ¿Qué son los datos? Obtención de los datos. Conceptos de variable, valor, unidad y observación. Población y muestra. Representatividad y sesgos de una muestra de datos. Cuestiones de ética y privacidad. Tipos de datos: datos numéricos (enteros y de punto flotantes), cadenas de caracteres, fechas. Variables categóricas. Exploración de los datos usando herramientas en línea como Google Sheets. Tablas dinámicas.

Módulo 2
Conceptos de programación. Variables y entornos de programación. Estructuras de datos. Plataforma “R” para el análisis de datos. Estructuras de control

Módulo 3
Visualización de datos. Visualización de los datos. Gráficos de barras. Gráficos de barras apiladas. Gráficos de dispersión (scatter plots). Histogramas. Polígonos de frecuencia. Gráficos de densidad. Comparación de distribuciones. Gráficos de cajas (box plots) y de violines. Gráficos de densidad apiladas.

Módulo 4
Limpieza y preparación de datos. La necesidad de la preparación de los datos para el análisis. Evaluación de la calidad de los datos. Datos duplicados. Datos faltantes. Técnicas de imputación de datos faltantes. Compleción por valores medios y medianas segmentada y no-segmentada.

Modulo 5
Conceptos de probabilidad y estadística. Concepto de distribución de parámetros. Métricas descriptivas. Media, mediana y moda. Cuantiles. Cuartiles. Desvío estándar y distancia intercuartil. Sensibilidad a los outliers. Elementos de inferencia estadística. Elementos de pruebas estadísticas. Concepto de p-valor y significancia.

Módulo 6
Análisis exploratorio de los datos. Desarrollo de compresión sobre los datos. El ciclo del análisis exploratorio. Generación de una pregunta. Búsqueda de respuestas a través de la visualización y el modelado. Revisión de la pregunta original.

Módulo 7
Ciclo de vida de un proyecto de datos. El modelo de proceso CRISP-DM (Cross-industry standard process for data mining). El modelo de proceso ASUM-DM (Analytics Solutions Unified Method for Data Mining/Predictive Analytics). Presentación de un problema o necesidad. Contextualización y formulación de la pregunta (business understanding). Obtención y preparación de los datos apropiados. Generación de una visión del resultado / herramienta / producto final. Visualización de los pasos necesarios para llegar a ese objetivo.

Módulo 8
Modelado de los datos. Concepto de modelo estadístico de los datos. Utilidad de los modelos como herramientas de inferencia y como técnica de resumen de los datos. Conceptos de parámetros e hiperparámetros. Variables predictoras y variable objetivo. Modelo lineal de regresión, simple y múltiple. Obtención de los parámetros por cuadrados mínimos. Evaluación del modelo ajustado. Coeficiente de determinación. Residuos. Dispersión en los residuos. qq-plots. Palanca y observaciones influyentes. Interpretación de los resultados de un modelo lineal. Error en los estimadores.

Módulo 9
Elementos de inferencia causal. Diferencia entre relaciones asociativas y relaciones causales. La importancia de la inferencia causal. La paradoja de Simpson. Variables confundidoras. Variables de control. Variables de control categóricas. Variables de control continuas. Modelos lineales con variables de control. Modelos con términos de interacción.