Hadoop

Seminario de Introducción a Big Data y Hadoop

Objetivo

Se espera que al finalizar el programa, los participantes puedan:

Entender el contexto y agentes del mercado en el cual surge Big Data
Entender el concepto de persistencia políglota y su uso en las aplicaciones, con sus ventajas asociadas.
Entender cuándo es conveniente utilizar Hadoop y cuándo no.

Modalidad

Seminario Teórico con Ejemplos prácticos – In house – Presencial

Duración

4 horas en 1 jornada

Destinatarios

El workshop está dirigido a personas con conocimientos en el área de sistemas de información que quieran hacer una inmersión en el mundo de Big Data y las plataformas de almacenamiento y procesamiento distribuido.

El workshop está también dirigido a personas con conocimientos en el área de Big que quieren introducirse en el mundo de Hadoop.

Requisitos de los destinatarios para cursar

Recomendable contar con estudios, al menos iniciales, en carreras relacionadas con Sistemas y conocimientos básicos de bases de datos relacionales.

Contenido

Qué es Big Data.
Las “4 V” del Big Data (volumen, velocidad, variedad y veracidad).
Beneficios prácticos de Big Data. Posibilidades de aplicación en la industria.

Re-diseño de productos.

Reducción de costos de mantenimiento.

Mejoras en comercialización, promoción y distribución.

Nuevas estrategias de negocio.

Ventajas y desventajas.
Desafíos y riesgos de su implementación.
Casos de éxito.

Surgimiento y Conceptualización de Bases de Datos NoSQL

Qué es Big Data.
Las “4 V” del Big Data (volumen, velocidad, variedad y veracidad).
Beneficios prácticos de Big Data. Posibilidades de aplicación en la industria.

Re-diseño de productos.

Reducción de costos de mantenimiento.

Mejoras en comercialización, promoción y distribución.

Nuevas estrategias de negocio.

Ventajas y desventajas.
Desafíos y riesgos de su implementación.
Casos de éxito.

Surgimiento y Conceptualización Ecosistema Apache Hadoop

Surgimiento de NoSQL. Necesidades que cubren.
Definicion de BD NoSQL
Tipos de bases de datos NoSQL: Key-value, documents, column-family, graph
Persistencia Políglota: definición y necesidad de soluciones
Características claves de arquitecturas orientadas a Big Data:
Replicación, Distribución, Alta Disponibilidad, Procesamiento Distribuido, Escalamiento.
Componentes del Ecosistema Apache Hadoop
Principales características de HDFS. File System distribuido.
Explicar qué son los Motores de Procesamiento Distribuido (MapReduce/Tez/Spark….)
Explicar las diferentes herramientas y lenguajes para explotación de datos (Hive, Pig, Scala…)
Explicar otras herramientas del Ecosistema (Flume, Kafka, Zookeeper, Hue, Ambari, Knuch)
Cuándo usar y cuándo Hadoop
Ejemplos de Utilización.

Curso de Big Data – Apache Hadoop

Objetivo

Describir y utilizar varias herramientas y componentes del ecosistema Hadoop 2.0.
Utilización de motores de procesamiento Distribuido mapReduce, Tez y Spark.
Utilizar herramientas para extracción y carga, monitoreo, explotación y consultas de datos, ingesta de datos, colas de procesos, entre otros.

Modalidad

Curso Teórico/Práctico – In house – Presencial

Destinatarios

El workshop está dirigido a personas con conocimientos en el área de sistemas de información que quieran hacer una inmersión en el mundo de Big Data y las plataformas de almacenamiento y procesamiento distribuido.

El workshop está también dirigido a personas con conocimientos en el área de Big Data que quieran introducirse en el mundo de Hadoop.

Duración

36 horas en 12 jornadas

Requisitos de los destinatarios para cursar

Recomendable contar con estudios, al menos iniciales, en carreras relacionadas con Sistemas y conocimientos básicos de bases de datos relacionales.

Contenido

Describir varias herramientas y componentes del ecosistema Hadoop 2.0.
Describir la arquitectura del file system HDFS.
Describir cómo los archivos se escriben y son accedidos en HDFS.
Usar comandos de HDFS para importar y exportar archivos desde/hacia Hadoop.
Describir cómo es generan las tablas Hive
Usar Hive para explorar cómo se definen e implementan las tablas Hive y analizar sets de datos
Explicar y utilizar diferentes formatos de archivo Hive
Implementar y configurar YARN en un cluster
Describir cómo se ejecutan los procesos YARN.
Utilización de motores de procesamiento Distribuido mapReduce, Tez y Spark.
Usar Sqoop para transferir datos entre Hadoop y una base de datos
Usar Flume para tomar datos de streaming en HDFS.
Usar Oozie como herramienta para workflows.
Usar Kafka como middleware tomando datos de streaming
Usar Pig para transformar y preparar datos en Hadoop
Usar Hive para ejecutar consultas de tipo SQL con o sin joins para realizar análisis de datos
Conocer Hbase como Base de Datos NoSQL dentro de Hadoop.
Desarrollar en Pig procesos mapReduce.
Desarrollar ETLs con Pentaho Community desde y hacia Hadoop
Configurar y hacer troubleshooting de Jobs MapReduce
Monitorear y administrar un cluster.

Hadoop

Seminario de Introducción a Big Data y Hadoop

Objetivo

Modalidad

Duración

Destinatarios

Requisitos de los destinatarios para cursar

Contenido

Curso de Big Data – Apache Hadoop

Objetivo

Modalidad

Destinatarios

Duración

Requisitos de los destinatarios para cursar

Contenido

Contacto.

Solicite asesoramiento

Estemos en contacto

Argentina: info@dblandit.com

Argentina: +54 11 6902 6826

España: dfeldman@dblandit.com

España: +34 603459482

México: ahoulston@dblandit.com

México: +52 55 2109 7470

Nos encontramos en

Argentina - Mexico - España

Síganos en redes

Big Data for Smart Business.