Big Data Hadoop og Spark utvikler - eLearning

4.900,00 NOK

50 hours

eLæring

Kurset for Big Data Hadoop og Spark-utviklere er designet for å gi deg en grundig forståelse av grunnleggende Apache Spark-kunnskaper og Hadoop-rammeverket, og utstyre deg med ferdighetene som trengs for å utmerke seg som en Big Data-utvikler. Gjennom dette programmet vil du oppnå praktisk kunnskap om Hadoop-økosystemet og dets integrasjon med Spark, som gjør deg i stand til å behandle og analysere enorme datasett effektivt. Lær hvordan de ulike komponentene i Hadoop, som HDFS og MapReduce, passer sømløst inn i syklusen for databehandling, og forbereder deg for suksess i dagens datadrevne verden.

Nøkkelfunksjoner

Språk

Kurset og materialet er på engelsk

Nivå

Mellomnivå for håpefulle dataingeniører

Tilgang

1 års tilgang til selvstudium e-læringsplattformen 24/7

11 timer med videomateriale

med anbefalt studietid på 50 timer

Praksiser

Simuleringstest, virtuelt laboratorium og prosjekt ved kursslutt

Ingen eksamen

Ingen eksamen for kurset, men studenten vil få et kursbevis for fullført opplæring

Læringsutbytte

I dette kurset for Big Data Hadoop og Spark-utviklere vil du lære å:

Hadoop-økosystemet

Lær hvordan du navigerer i Hadoop-økosystemet og forstår hvordan du optimaliserer bruken av det

Innhent Data

Importer data ved hjelp av Sqoop, Flume og Kafka.

Kube

Implementer partisjonering, bøtting og indeksering i Hive

Apache Spark

Arbeid med RDD i Apache Spark

Datastrømming

Behandle sanntidsstrømmedata og utfør DataFrame-operasjoner i Spark ved hjelp av SQL-spørringer

Implementering

Implementer brukerdefinerte funksjoner (UDF) og brukerdefinerte attributt funksjoner (UDAF) i Spark

Kursplan

Introduksjon til Big Data og Hadoop
Leksjon 01
- Introduksjon til Big Data og Hadoop
- Introduksjon til Big Data
- Big Data-analyse
- Hva er Big Data?
- De fire V-ene i Big Data
- Case-studie: Royal Bank of Scotland
- Utfordringer med tradisjonelle systemer
- Distribuerte systemer
- Introduksjon til Hadoop
- Komponenter i Hadoop-økosystemet Del En
- Komponenter i Hadoop-økosystemet Del To
- Komponenter i Hadoop-økosystemet Del Tre
- Kommersielle Hadoop-distribusjoner
- Demo: Gjennomgang av Simplilearn Cloudlab
- Viktige poenger
- Kunnskapssjekk
Hadoop-arkitektur distribuert lagring (HDFS) og YARN
Leksjon 02
- Hadoop Architecture Distributed Storage (HDFS) and YARN
- What is HDFS
- Need for HDFS
- Regular File System vs HDFS
- Characteristics of HDFS
- HDFS Architecture and Components
- High Availability Cluster Implementations
- HDFS Component File System Namespace
- Data Block Split
- Data Replication Topology
- HDFS Command Line
- Demo: Common HDFS Commands
- Practice Project: HDFS Command Line
- Yarn Introduction
- Yarn Use Case
- Yarn and its Architecture
- Resource Manager
- How Resource Manager Operates
- Application Master
- How Yarn Runs an Application
- Tools for Yarn Developers
- Demo: Walkthrough of Cluster Part One
- Demo: Walkthrough of Cluster Part Two
- Key Takeaways Knowledge Check
- Practice Project: Hadoop Architecture, distributed Storage (HDFS) and Yarn
Datainnsamling i store datasystemer og ETL
Leksjon 03
- Data Ingestion Into Big Data Systems and Etl
- Data Ingestion Overview Part One
- Data Ingestion Overview Part Two
- Apache Sqoop
- Sqoop and Its Uses
- Sqoop Processing
- Sqoop Import Process
- Sqoop Connectors
- Demo: Importing and Exporting Data from MySQL to HDFS
- Practice Project: Apache Sqoop
- Apache Flume
- Flume Model
- Scalability in Flume
- Components in Flume’s Architecture
- Configuring Flume Components
- Demo: Ingest Twitter Data
- Apache Kafka Aggregating User Activity Using Kafka
- Kafka Data Model
- Partitions
- Apache Kafka Architecture
- Demo: Setup Kafka Cluster
- Producer Side API Example
- Consumer Side API
- Consumer Side API Example
- Kafka Connect
- Demo: Creating Sample Kafka Data Pipeline Using Producer and Consumer
- Key Takeaways
- Knowledge Check
- Practice Project: Data Ingestion Into Big Data Systems and ETL
Distribuert prosesseringsrammeverk for MapReduce og Pig
Leksjon 04
- Distributed Processing Mapreduce Framework and Pig
- Distributed Processing in Mapreduce
- Word Count Example
- Map Execution Phases
- Map Execution Distributed Two Node Environment
- Mapreduce Jobs
- Hadoop Mapreduce Job Work Interaction
- Setting Up the Environment for Mapreduce Development
- Set of Classes
- Creating a New Project
- Advanced Mapreduce
- Data Types in Hadoop
- Output formats in Mapreduce
- Using Distributed Cache
- Joins in MapReduce
- Replicated Join
- Introduction to Pig
- Components of Pig
- Pig Data Model
- Pig Interactive Modes
- Pig Operations
- Various Relations Performed by Developers
- Demo: Analyzing Web Log Data Using Mapreduce
- Demo: Analyzing Sales Data and Solving Kpis Using Pig Practice Project: Apache Pig
- Demo: Wordcount
- Key Takeaways
- Knowledge Check
- Practice Project: Distributed Processing - Mapreduce Framework and Pig
Apache Hive
Leksjon 05
- Apache Hive
- Hive SQL over Hadoop MapReduce
- Hive Architecture
- Interfaces to Run Hive Queries
- Running Beeline from Command Line
- Hive Metastore
- Hive DDL and DML
- Creating New Table
- Data Types Validation of Data
- File Format Types
- Data Serialization
- Hive Table and Avro Schema
- Hive Optimization Partitioning Bucketing and Sampling
- Non-Partitioned Table
- Data Insertion
- Dynamic Partitioning in Hive
- Bucketing
- What Do Buckets Do?
- Hive Analytics UDF and UDAF
- Other Functions of Hive
- Demo: Real-time Analysis and Data Filtration
- Demo: Real-World Problem
- Demo: Data Representation and Import Using Hive
- Key Takeaways
- Knowledge Check
- Practice Project: Apache Hive
NoSQL-databaser HBase
Leksjon 06
- NoSQL Databases HBase
- NoSQL Introduction
- Demo: Yarn Tuning
- Hbase Overview
- Hbase Architecture
- Data Model
- Connecting to HBase
- Practice Project: HBase Shell
- Key Takeaways
- Knowledge Check
- Practice Project: NoSQL Databases - HBase
Grunnleggende om funksjonell programmering og Scala
Leksjon 07
- Grunnleggende om funksjonell programmering og Scala
- Introduksjon til Scala
- Demo: Installasjon av Scala
- Funksjonell programmering
- Programmering med Scala
- Demo: Grunnleggende om literaler og aritmetisk programmering
- Demo: Logiske operatorer
- Typeinferens, klasser, objekter og funksjoner i Scala
- Demo: Typeinferens, anonyme funksjoner og klasse
- Samlinger
- Typer samlinger
- Demo: Fem typer samlinger
- Demo: Operasjoner på liste Scala REPL
- Demo: Funksjoner av Scala REPL
- Viktige poenger
- Kunnskapssjekk
- Praksisprosjekt: Apache Hive
Apache Spark neste generasjons stordata-rammeverk
Leksjon 08
- Apache Spark Next-Generation Big Data Framework
- History of Spark
- Limitations of Mapreduce in Hadoop
- Introduction to Apache Spark
- Components of Spark
- Application of In-memory Processing
- Hadoop Ecosystem vs Spark
- Advantages of Spark
- Spark Architecture
- Spark Cluster in Real World
- Demo: Running a Scala Programs in Spark Shell
- Demo: Setting Up Execution Environment in IDE
- Demo: Spark Web UI
- Key Takeaways
- Knowledge Check
- Practice Project: Apache Spark Next-Generation Big Data Framework
Spark Core Processing RDD
Leksjon 09
- Introduction to Spark RDD
- RDD in Spark
- Creating Spark RDD
- Pair RDD
- RDD Operations
- Demo: Spark Transformation Detailed Exploration Using Scala Examples
- Demo: Spark Action Detailed Exploration Using Scala
- Caching and Persistence
- Storage Levels
- Lineage and DAG
- Need for DAG
- Debugging in Spark
- Partitioning in Spark
- Scheduling in Spark
- Shuffling in Spark
- Sort Shuffle Aggregating Data With Paired RDD
- Demo: Spark Application With Data Written Back to HDFS and Spark UI
- Demo: Changing Spark Application Parameters
- Demo: Handling Different File Formats
- Demo: Spark RDD With Real-world Application
- Demo: Optimizing Spark Jobs
- Key Takeaways
- Knowledge Check
- Practice Project: Spark Core Processing RDD
Spark SQL Behandling av DataFrames
Leksjon 10
- Spark SQL Behandling av DataFrames
- Introduksjon til Spark SQL
- Arkitektur i Spark SQL
- Dataframes
- Demo: Håndtering av ulike dataformater
- Demo: Implementering av ulike DataFrame-operasjoner
- Demo: UDF og UDAF
- Samspill med RDDer
- Demo: Prosessering av DataFrames ved bruk av SQL-spørringer
- RDD vs DataFrame vs Dataset
- Praksisprosjekt: Behandling av DataFrames
- Viktige lærdommer
- Kunnskapssjekk
- Praksisprosjekt: Spark SQL - Behandling av DataFrames
Modellering av store datamengder med Spark MLib
Leksjon 11
- Spark Mlib-modellering av store datamengder med Spark
- Dataforskerens og dataanalytikerens rolle i store datamengder
- Analytikk i Spark
- Maskinlæring
- Overvåket læring
- Demo: Klassifisering med lineær SVM
- Demo: Lineær regresjon med virkelige case-studier
- Uovervåket læring
- Demo: Uovervåket klyngeanalyse med K-means
- Forsterket læring
- Semi-overvåket læring
- Oversikt over Mlib
- Mlib-rørledninger
- Viktige lærdommer
- Kunnskapssjekk
- Praksisprosjekt: Spark Mlib - Modellering av store datamengder med Spark
Rammeverk for strømmebehandling og Spark Streaming
Leksjon 12
- Oversikt over strømming
- Sanntidsbehandling av store datamengder
- Arkitekturer for databehandling
- Demo: Sanntids databehandling med Spark Streaming
- Demo: Skrive Spark Streaming-applikasjon
- Introduksjon til DStreams
- Transformasjoner på DStreams
- Designmønstre for bruk av Foreachrdd
- Tilstandsoperasjoner
- Vindusoperasjoner
- Sammenføyingsoperasjoner Strøm-datasett-sammenføyning
- Demo: Vindusbehandling av sanntids databehandling av strømmekilder
- Demo: Behandling av Twitter-strømmedata
- Strukturert Spark Streaming-
- Brukstilfelle Banktransaksjoner
- Modell for arkitektur av strukturert strømming og dens komponenter
- Utdata-senker
- API-er for strukturert strømming
- Konstruksjon av kolonner i strukturert strømming
- Vindusoperasjoner på hendelsestid
- Brukstilfeller
- Demo: Strømningsrørledning
- Praksisprosjekt: Spark Streaming
- Viktige poenger
- Kunnskapssjekk
- Praksisprosjekt: Strømningsbehandlingsrammeverk og Spark Streaming
Spark GraphX
Leksjon 13
- Spark GraphX
- Innføring i graf
- GraphX i Spark
- GraphX-operatorer
- Sammenføyingsoperatorer
- GraphX parallellsystem
- Algoritmer i Spark
- Pregel API
- Brukstilfelle for GraphX
- Demo: GraphX Vertex Predicate
- Demo: Page Rank-algoritmen
- Viktige poenger
- Kunnskapssjekk
- Praksisprosjekt: Spark GraphX prosjektassistanse

Målgruppe

Ideell for et bredt spekter av fagfolk og personer som ønsker å fremme sin karriere innen stordataanalyse, dataingeniørfag og datavitenskap.

Forutsetninger: Det anbefales at du har kunnskap om Core Java og SQL

Analytikerprofesjonelle

Erfarne IT-profesjonelle

Testing- og stormaskinspesialister

Dataforvaltningsprofesjonelle

Forretningsanalytikere

Prosjektledere

Nyutdannede som ser etter å starte en karriere innen stor dataanalyse

Start nå

Ofte stilte spørsmål

Trenger du bedriftsløsning eller LMS-integrasjon?

Fant du ikke kurset eller programmet som ville være passende for din bedrift? Trenger du LMS-integrasjon? Ta kontakt med oss! Vi er agile og løser alt!

Big Data Hadoop og Spark utvikler - eLearning

Nøkkelfunksjoner

Læringsutbytte

Kursplan

Målgruppe

Ofte stilte spørsmål

Kursdetaljer

Kursformat

Betaling og annet

Big Data Hadoop og Spark utvikler - eLearning

Nøkkelfunksjoner

Læringsutbytte

Kursplan

Målgruppe

Ofte stilte spørsmål

Kursdetaljer

Kursformat

Betaling og annet

Hva er Hadoop i Big Data?

Funksjoner i Hadoop

Bruksområder for Hadoop i Big Data

Fordeler med Hadoop

Hva er Spark i store data?

Bruksområder for Apache Spark i Big Data

Hvordan Hadoop og Spark utfyller hverandre

Hva er e-læring?

Hvor lenge varer tilgangen til e-læringsplattformen?

Hvor lang tid vil det ta å fullføre kurset?

Hva skjer etter at jeg har kjøpt et kurs? Hvordan begynner jeg e-læringskurset?

Gjøre et kjøp

Andre spørsmål