Katalog
/
Big Data
/
Apache Hadoop für Administratoren

Apache Hadoop für Administratoren

Beherrschen Sie die wichtigsten Techniken und Konzepte der Hadoop-Administration in dieser umfassenden Schulung. Vertiefen Sie sich in HDFS, YARN, Clusterplanung und Installation.

Was werden Sie lernen?

Dieser Kurs zum Apache Hadoop-Administrator ist Ihr Einstieg in die weltweit beliebteste Plattform für die verteilte Datenverarbeitung. Nach Abschluss des Kurses werden die Teilnehmer:

• HDFS verstehen: Eintauchen in die zentralen Daemons und Betriebsfunktionen des Hadoop-Dateisystems.

• Sich mit YARN und MRv2 vertraut machen: Upgrade und reibungsloser Übergang von Hadoop 1 zu Hadoop 2.

• Planen Sie Ihren Hadoop-Cluster: Wählen Sie die beste Hardware, das beste Betriebssystem und die beste Netzwerktopologie für Ihre Bedürfnisse.

• Installieren und Verwalten Ihres Clusters: Lernen Sie die Tools und Techniken kennen, um Ihren Cluster in einem optimalen Zustand zu halten.

• Optimieren Sie die Ressourcenverwaltung:

• Lernen Sie die FIFO-, Fair- und Kapazitäts-Scheduler kennen.

• ‍Überwachung und Protokollierung beherrschen:Nutzen Sie die Metriken, Web-UIs und Protokolldateien von Hadoop, um den Zustand Ihres Clusters sicherzustellen.

Voraussetzungen:

Grundlegende IT-Kenntnisse: Vertrautheit mit Betriebssystemen, Hardwarekonfigurationen und grundlegenden Netzwerkoperationen.

Optional: Frühere Erfahrungen mit verteilten Systemen sind von Vorteil, aber nicht zwingend erforderlich.

Kursübersicht*:

*Wir wissen, dass jedes Team eigene Bedürfnisse und Spezifikationen hat. Deshalb können wir die Schulungsübersicht nach Bedarf anpassen.

HDFS - Das Herz von Hadoop

  • Einführung in HDFS: Verstehen seiner grundlegenden Rolle in Hadoop.
  • Daemons von HDFS: Tiefe Einblicke in NameNode, DataNode und SecondaryNameNode und ihre Verantwortlichkeiten.
  • Hadoop-Cluster-Betrieb: Wie Daten effektiv gespeichert und verarbeitet werden.
  • Die Entwicklung von Hadoop: Warum moderne Rechensysteme Plattformen wie Hadoop benötigen.
  • Entwurfsprinzipien von HDFS: Zuverlässigkeit, Skalierbarkeit und Fehlertoleranz im Vordergrund.
  • Erforschung der HDFS-Föderation: Verbesserung der Namespace-Isolierung und Skalierbarkeit.
  • Hohe Verfügbarkeit mit HDFS HA-Quorum: Sicherstellung von Datenbeständigkeit und Cluster-Verfügbarkeit.
  • Absicherung von HDFS: Einführung in die Kerberos-basierte Authentifizierung.
  • Serialisierung in Hadoop: Optimale Wahl der Datenserialisierung für verschiedene Szenarien.
  • Praktische Anwendung der Hadoop File System Shell: Befehle zur Manipulation und Verwaltung von Dateien.

YARN und MapReduce Version 2 (MRv2) - Leistungsstarke Verarbeitung

  • Der Übergang zwischen den Versionen: Hauptunterschiede zwischen Hadoop 1 und Hadoop 2.
  • Einsatz von YARN: Einrichten des Hadoop-Rechenframeworks der nächsten Generation.
  • Entwerfen mit MRv2: Strategien zur Optimierung von Datenverarbeitungsaufgaben.
  • YARN-Ressourcenzuweisung: Wie Ressourcen dynamisch zugewiesen und verwaltet werden.
  • MapReduce auf YARN: Umfassende Aufschlüsselung des Lebenszyklus eines Jobs.
  • Migrationsrichtlinien: Sicherstellung reibungsloser Übergänge von MRv1 zu MRv2.

Strategische Hadoop-Cluster-Planung

  • Optimale Hardware-Auswahl: Verstehen der Serverspezifikationen für verschiedene Hadoop-Workloads.
  • Die Wahl des richtigen Betriebssystems: Empfehlungen für Stabilität und Leistung.
  • Tuning für Leistung: Kernel-Anpassungen für optimierte Operationen.
  • Arbeitslast-Analyse: Ermittlung des Hardware- und Softwarebedarfs auf der Grundlage von Arbeitslastmustern.
  • Vielfältiges Ökosystem: Ein Überblick über ergänzende Komponenten, die Hadoop verbessern.
  • Überlegungen zur Speicherung: JBOD vs. RAID, Größenbestimmung von Festplatten und mehr.
  • Netzwerkplanung für Hadoop: Sicherstellung von Bandbreite und Fehlertoleranz.

Praktische Cluster-Installation und -Verwaltung

  • Sicherstellung von Fehlertoleranz: Techniken zur Gewährleistung der Betriebszeit bei Ausfällen.
  • Protokollierungsmechanismen in Hadoop: Einrichten, Lesen und Analysieren von Protokollen.
  • Hadoop-Gesundheitsprüfung: Werkzeuge und Strategien zur Überwachung des Clusterzustands.
  • Cluster-Management-Tools: Eine Einführung in Plattformen wie Ambari.
  • Ökosystem auf CDH 5: Einrichten von Komponenten wie Impala, Flume und Hive.

Ressourcenmanagement - Maximierung der Effizienz

  • Überblick über Hadoop Scheduler: Verstehen ihrer Rolle bei der Ressourcenzuweisung.
  • FIFO-Scheduler: Wie er Cluster-Ressourcen sequentiell zuweist.
  • Faire und Kapazitäts-Scheduler: Sicherstellung einer effizienten und prioritätsbasierten Ressourcenzuweisung.

Überwachung, Protokollierung und Fehlerbehebung

  • Metriken in Hadoop: Integrierte Tools für Leistungseinblicke nutzen.
  • Web-UIs für die Überwachung: Navigieren und Interpretieren der NameNode- und JobTracker-Schnittstellen.
  • Daemon-Überwachung: Tools und Techniken zur Sicherstellung des Zustands von Daemons.
  • CPU- und Speicherzustand: Überwachungs- und Optimierungstechniken.
  • Logs entschlüsselt: Lesen, Verwalten und Ableiten von Erkenntnissen aus Hadoop-Protokollen.

Praxisnahes Lernen mit erfahrenen Trainern an Ihrem Standort für Organisationen.

6.897€*
Graph Icon - Education X Webflow Template
Niveau:
intermediate
Clock Icon - Education X Webflow Template
Dauer:
35
Stunden (Tage:
5
)
Camera Icon - Education X Webflow Template
Training angepasst an Ihre Bedürfnisse
Star Icon - Education X Webflow Template
Intensive praktische Erfahrung in einer speziellen Umgebung
*Der Preis kann je nach Teilnehmerzahl, Änderung des Programms, Standort usw. variieren.

Neue Fähigkeiten erlernen, angeleitet von erfahrenen Trainern von überall.

4.962€*
Graph Icon - Education X Webflow Template
Niveau:
intermediate
Clock Icon - Education X Webflow Template
Dauer:
35
Stunden (Tage:
5
)
Camera Icon - Education X Webflow Template
Training angepasst an Ihre Bedürfnisse
Star Icon - Education X Webflow Template
Reduzierte Schulungskosten
*Der Preis kann je nach Teilnehmerzahl, Änderung des Programms, Standort usw. variieren.