Hadoop
Seminario de Introducción a Big Data y Hadoop
Objetivo
Se espera que al finalizar el programa, los participantes puedan:
- Entender el contexto y agentes del mercado en el cual surge Big Data
- Entender el concepto de persistencia políglota y su uso en las aplicaciones, con sus ventajas asociadas.
- Entender cuándo es conveniente utilizar Hadoop y cuándo no.
Modalidad
Seminario Teórico con Ejemplos prácticos – In house – Presencial
Duración
4 horas en 1 jornada
Destinatarios
El workshop está dirigido a personas con conocimientos en el área de sistemas de información que quieran hacer una inmersión en el mundo de Big Data y las plataformas de almacenamiento y procesamiento distribuido.
El workshop está también dirigido a personas con conocimientos en el área de Big que quieren introducirse en el mundo de Hadoop.
Requisitos de los destinatarios para cursar
Recomendable contar con estudios, al menos iniciales, en carreras relacionadas con Sistemas y conocimientos básicos de bases de datos relacionales.
Contenido
- Qué es Big Data.
- Las “4 V” del Big Data (volumen, velocidad, variedad y veracidad).
- Beneficios prácticos de Big Data. Posibilidades de aplicación en la industria.
Re-diseño de productos.
Reducción de costos de mantenimiento.
Mejoras en comercialización, promoción y distribución.
Nuevas estrategias de negocio.
- Ventajas y desventajas.
- Desafíos y riesgos de su implementación.
- Casos de éxito.
Surgimiento y Conceptualización de Bases de Datos NoSQL
- Qué es Big Data.
- Las “4 V” del Big Data (volumen, velocidad, variedad y veracidad).
- Beneficios prácticos de Big Data. Posibilidades de aplicación en la industria.
Re-diseño de productos.
Reducción de costos de mantenimiento.
Mejoras en comercialización, promoción y distribución.
Nuevas estrategias de negocio.
- Ventajas y desventajas.
- Desafíos y riesgos de su implementación.
- Casos de éxito.
Surgimiento y Conceptualización Ecosistema Apache Hadoop
- Surgimiento de NoSQL. Necesidades que cubren.
- Definicion de BD NoSQL
- Tipos de bases de datos NoSQL: Key-value, documents, column-family, graph
- Persistencia Políglota: definición y necesidad de soluciones
- Características claves de arquitecturas orientadas a Big Data:
- Replicación, Distribución, Alta Disponibilidad, Procesamiento Distribuido, Escalamiento.
- Componentes del Ecosistema Apache Hadoop
- Principales características de HDFS. File System distribuido.
- Explicar qué son los Motores de Procesamiento Distribuido (MapReduce/Tez/Spark….)
- Explicar las diferentes herramientas y lenguajes para explotación de datos (Hive, Pig, Scala…)
- Explicar otras herramientas del Ecosistema (Flume, Kafka, Zookeeper, Hue, Ambari, Knuch)
- Cuándo usar y cuándo Hadoop
- Ejemplos de Utilización.
Curso de Big Data – Apache Hadoop
Objetivo
- Describir y utilizar varias herramientas y componentes del ecosistema Hadoop 2.0.
- Utilización de motores de procesamiento Distribuido mapReduce, Tez y Spark.
- Utilizar herramientas para extracción y carga, monitoreo, explotación y consultas de datos, ingesta de datos, colas de procesos, entre otros.
Modalidad
Curso Teórico/Práctico – In house – Presencial
Destinatarios
El workshop está dirigido a personas con conocimientos en el área de sistemas de información que quieran hacer una inmersión en el mundo de Big Data y las plataformas de almacenamiento y procesamiento distribuido.
El workshop está también dirigido a personas con conocimientos en el área de Big Data que quieran introducirse en el mundo de Hadoop.
Duración
36 horas en 12 jornadas
Requisitos de los destinatarios para cursar
Recomendable contar con estudios, al menos iniciales, en carreras relacionadas con Sistemas y conocimientos básicos de bases de datos relacionales.
Contenido
- Describir varias herramientas y componentes del ecosistema Hadoop 2.0.
- Describir la arquitectura del file system HDFS.
- Describir cómo los archivos se escriben y son accedidos en HDFS.
- Usar comandos de HDFS para importar y exportar archivos desde/hacia Hadoop.
- Describir cómo es generan las tablas Hive
- Usar Hive para explorar cómo se definen e implementan las tablas Hive y analizar sets de datos
- Explicar y utilizar diferentes formatos de archivo Hive
- Implementar y configurar YARN en un cluster
- Describir cómo se ejecutan los procesos YARN.
- Utilización de motores de procesamiento Distribuido mapReduce, Tez y Spark.
- Usar Sqoop para transferir datos entre Hadoop y una base de datos
- Usar Flume para tomar datos de streaming en HDFS.
- Usar Oozie como herramienta para workflows.
- Usar Kafka como middleware tomando datos de streaming
- Usar Pig para transformar y preparar datos en Hadoop
- Usar Hive para ejecutar consultas de tipo SQL con o sin joins para realizar análisis de datos
- Conocer Hbase como Base de Datos NoSQL dentro de Hadoop.
- Desarrollar en Pig procesos mapReduce.
- Desarrollar ETLs con Pentaho Community desde y hacia Hadoop
- Configurar y hacer troubleshooting de Jobs MapReduce
- Monitorear y administrar un cluster.