Especialización en ciencia de datos

Especialidad

En Buenos Aires

Precio a consultar

Descripción

  • Tipología

    Especialidad

  • Lugar

    Buenos aires

  • Inicio

    Fechas disponibles

El término “Big Data” se refiere a grandes colecciones de datos, estructurados, o no, que pueden crecer a volúmenes enormes y a un ritmo tan alto que los hace difíciles de manejar con las técnicas habituales de los sistemas de bases de datos y las herramientas de análisis existentes hasta hace un tiempo. La gestión, análisis y explotación de estas cantidades masivas de datos complejos exigen nuevas soluciones que van más allá de los procesos tradicionales o herramientas de software habituales en la práctica diaria.

Sedes y fechas disponibles

Ubicación

inicio

Buenos Aires
Ver mapa
25 de Mayo 444, 6660

inicio

Fechas disponiblesInscripciones abiertas

Preguntas & Respuestas

Añadí tu pregunta

Nuestros asesores y otros usuarios podrán responderte

¿Quién querés que te responda?

Dejanos tus datos para recibir respuesta

Sólo publicaremos tu nombre y pregunta

Opiniones

Materias

  • Herramientas
  • OLAP
  • Modelos
  • Algoritmos
  • Fundamentos
  • Análisis de datos
  • Redes
  • Data Mining
  • Programación
  • Big Data
  • Base de datos
  • Tecnología
  • Seguridad informática
  • Protección de datos

Plan de estudios

FUNDAMENTOS DE ANÁLISIS DE DATOS

Esta materia tiene como objetivo impartir los fundamentos estadísticos del análisis inteligente de datos. Es decir, no enfoca el punto de vista algorítmico, sino conceptual. Estos fundamentos serán utilizados en muchas de las asignaturas que componen la especialización
Contenidos mínimos
Análisis exploratorio de datos (EDA). Reducción de dimensionalidad: análisis de componentes principales. Regresión lineal simple y múltiple. Regresión logística. Análisis de varianza (ANOVA). Análisis de datos de encuestas. Curvas ROC, ganancia. Redes Bayesianas. Introducción al análisis de series de tiempo: Los modelos ARIMA (autoregressive integrated moving average), ARCH (autoregressive conditional heterogeneity), GARCH (generalized autoregressive conditional heterogeneity).

MINERÍA DE DATOS

En esta materia se abordarán las técnicas y algoritmos básicos de data mining, con especial énfasis en regresión, análisis de asociación, y clustering. Partiendo de las técnicas clásicas se discutirán los nuevos desafíos que impone Big Data.
Contenidos mínimos
Conceptos básicos de data mining. Modelos descriptivos y predictivos. Técnicas fundamentales: reglas de asociación, clasificación, clustering, patrones. Arboles de decisión. Aplicación a problemas concretos de predicción. Casos de estudio. KPIs (Key Performance Indicators). Dashboards. Herramientas comerciales y de código abierto.

ALMACENES DE DATOS Y PROCESAMIENTO ANALÍTICO EN LÍNEA

Se estudiará la arquitectura de los data warehouses (DW), así como su diseño conceptual, lógico y físico, y su explotación mediante herramientas de Online Analytical Processing (OLAP), mining, dashboards, etc. Se prestará especial atención al diseño de DW frente a los 3 problemas planteados por Big Data: Voumen, velocidad, y variedad. Por eso se estudiarán las bases de datos de grafos (variedad), y los DW en tiempo real (velocidad).
Contenidos mínimos
Arquitecturas. Diseño conceptual, lógico y físico. El modelo multidimensional: estrella, snowlflake y constellation. Slowly changing dimensions. Diseño físico. On Line Analytical Processing: OLAP. OLAP vs OLTP. Lenguajes de consulta: MDX básico y avanzado. Entornos avanzados para OLAP. Herramientas comerciales y de código abierto. OLAP en Big Data: Análisis en tiempo real, bases de datos de grafos.

HERRAMIENTAS DE PROCESAMIENTO PARA GRANDES VOLÚMENES DE DATOS

En esta materia se estudian las herramientas que popularmente se identifican con Big Data: Hadoop y MapReduce, así como las arquitecturas de procesamiento masivamente paralelo con clusters de tipo commodity. Es decir, aquí el estudiante estará expuesto a un entorno real de Big Data, desde el punto de vista del hardware y del software.
Contenidos mínimos
Fundamentos de sistemas distribuidos. Modelos. El teorema CAP. Clusters para programación masivamente paralela (MPP). Virtualización de clusters y data centers. Arquitecturas cloud. Conceptos fundamentales de Big Data: Velocidad, Volumen, Variedad, Veracidad. Qué es y qué no es “Big Data”. Datos estructurados y no estructurados. Bases de datos No SQL: MongoDB. El paradigma MapReduce. Hadoop File System. YARN: evolución de hadoop. Arquitectura, componentes. Bases de datos columnares: Apache Cassandra, HBase. Key-value stores: Amazon DynamoDB, Redis. Lenguages de alto nivel: HiveQL y Pig Latin. Análisis de datos con Hadoop y Hive. Apache Spark. Programación con Spark. Streaming, captura de Tweets y e datos en real time, machine learning con Spark.

VISUALIZACIÓN DE LA INFORMACIÓN

La visualización de la información es parte fundamental del análisis de datos. En este curso se verán los fundamentos teóricos de la visualización de datos (por ejemplo, cómo representar visualmente datos con alta dimensionalidad) y las herramientas prácticas para implementarla.
Contenidos mínimos
Introducción, definiciones, antecedentes, gráficos notables. Principios de la excelencia gráfica. Observaciones y variables. Tipo de variables. Visualizando tablas, jerarquías y redes. Utilización del color. Representación eficiente de la información, sumarización y visualización de grandes volúmenes de datos. Prácticas con d3js, jit, Processing, Google Visualization API, Tableau, Fusion Tables y QGIS.

TÉCNICAS Y ALGORITMOS DE APRENDIZAJE AUTOMÁTICO

El objetivo de esta materia es que el estudiante adquiera los conocimientos generales y prácticos del estado del arte en Aprendizaje Automático para su aplicación en la práctica profesional, en particular en un contexto de Big Data. El estudiante, al finalizar el curso, conocerá los principales modelos y algoritmos de aprendizaje computacional, y podrá definir métodos y pruebas que le permitan seleccionar el modelo apropiado a los casos prácticos que se le presente. Esta materia complementará los modelos y algoritmos que se estudian en la asignatura “Data Mining”.
Contenidos mínimos
Conceptos básicos de machine learning. Inferencias. Espacio de versiones. Aprendizaje como búsqueda heurística. Conceptos generales de sesgo y poda. Árboles de decisión. Extensiones a los algoritmos básicos y problemas de implementación. Generación de reglas. Aprendizaje Bayesiano. Algoritmos aglomerativos y de partición. K-Means, SVM. Características descriptivas y discriminantes. Presentación general de otros modelos (genéticos, redes neuronales, etc.). Aplicaciones en Big Data.

DISEÑO E IMPLEMENTACIÓN DE PROCESOS DE EXTRACCIÓN, TRANSFORMACIÓN Y CARGA DE GRANDES VOLÚMENES DE DATOS

El proceso de extracción, transformación, y carga (ETL) de un data warehouse (DW) es el proceso clave en todo proyecto, ya que involucra el 80% de su presupuesto. En un entorno de Big Data es aún más crítico, pues al volumen de datos, se suma la necesidad de un análisis en tiempo casi-real (por la velocidad de llegada de los datos), y una gran variedad de procesos de captura y adquisición, debido a la variedad de los datos, en gran medida provenientes de la Web. En esta asignatura se estudiarán estos procesos, con fuerte enfoque de aplicación.
Contenidos mínimos
El proceso de Extract, Transform-Load (ETL). Diseño Conceptual. Uso de técnicas de BPMN. Aplicación. Herramientas comerciales (MS Integration Services) y de código abierto (Pentaho Kettle). ETL para soporte de real-time OLAP y DW. Uso de Hadoop/MapReduce en el proceso de ETL. ETL vs ELT. Ejemplos prácticos y programación de procesos ETL.

ANÁLISIS DE DATOS CIENTÍFICOS Y GEOGRÁFICOS

Los Sistemas de Información Geográfica (GIS), y las aplicaciones científicas son, junto con las redes sociales, las más grandes fuentes de Big Data, y requieren tratamientos particulares para su administración, integración con otros tipos de datos, y consulta. Estos problemas se abordarán en esta asignatura.
Contenidos mínimos
Sistemas de Información Geográfica (GIS): modelos discretos y continuos (Continuous Fields). OLAP sobre GIS. Análisis de trayectorias de objetos móviles: patrones. Ontologías. Análisis de datos biológicos, astronómicos, químicos. Análisis de Microarrays.

SEMINARIO INTENSIVO DE TÓPICOS AVANZADOS EN DATOS COMPLEJOS

Este seminario se realizará durante el receso invernal, durante una semana a tiempo completo, y será dictado por profesores invitados de reconocida relevancia en el área. Su objetivo es compartir la visión de otros especialistas, promover el intercambio con otras instituciones, y presentar a los estudiantes posibles temas de trabajo final.

TALLER DE TRABAJO FINAL INTEGRADOR (TFI)

Durante este seminario los estudiantes planificarán su trabajo final integrador. El objetivo del taller es contribuir a la formación de un pensamiento crítico, alcanzado a través de que el alumno logre: adquirir los conocimientos básicos del método científico y de las técnicas metodológicas; conocer cómo se lleva a cabo y qué etapas incluye la realización de una investigación; conocer los distintos tipos de investigaciones que pueden realizarse, los distintos instrumentos de recolección de datos que pueden utilizarse, y sus ventajas y limitaciones; adquirir habilidad para el análisis metodológico de trabajos de investigación; adquirir los conocimientos indispensables para participar en un trabajo de investigación, y encaminarse en la preparación de su TFI; adquirir las herramientas necesarias para elaborar el reporte final.
El trabajo final consistirá en el desarrollo de un proyecto individual relacionado con un área de aplicación (GIS, biología, etc).
El alumno propondrá un trabajo, y el Director y CA designarán al tutor del TFI, seleccionándolo dentro del grupo de tutores indicado anteriormente. La aceptación formal del tema seleccionado estará a cargo del Director de la Carrera en conjunto con el Comité Académico. El TFI deberá ser presentado como máximo dentro de los 12 meses a partir de la fecha de aprobación del último módulo. El TFI será evaluado por profesionales designados por el Director y seleccionados por su experiencia académica y profesional relevante y pertinente al objeto de estudio del trabajo del alumno. Estos deberán emitir su opinión escrita y fundamentada dentro de los sesenta (60) días de recibida, enmarcados en las pautas que indique el DC en acuerdo con el CA.

Especialización en ciencia de datos

Precio a consultar