FÅ 3000 KR NU ENKELT FÖR STADENS BOR HÄMTA NU
caneslat.pages.dev


Köra MapReduce-jobb i ett Hadoop-kluster

Att köra ett MapReduce-program kräver ett strukturerat tillvägagångssätt som involverar kodkompilering, datahantering i Hadoop Distributed File System (HDFS) och jobbinlämning via kommandoradsgränssnittet.

Steg-för-steg exekveringsprocess

  1. Förbered MapReduce-koden
      • Skriv klasserna Mapper, Reducer och Driver i Java eller ett annat språk som stöds.
      • Kompilera källkoden med Hadoop-klasssökvägen.
      • Skapa en JAR-fil (Java Archive) som innehåller de kompilerade klasserna.
  2. Konfigurera indata i HDFS
      • Skapa en inmatningskatalog i HDFS med kommandot: hdfs dfs -mkdir /input_data.
      • Ladda upp den lokala datamängden till HDFS-katalogen: hdfs dfs -put localfile.txt /input_data.
  3. Skicka in MapReduce-jobbet
      • Använd kommandot hadoop jar för att initiera exekvering.
      • Syntax: hadoop jar sökväg/to/dinfil.jar MainClassName /input_data /output_data.
      • Se till att utdatakatalogen inte redan finns, eftersom Hadoop förhindrar överskrivning.
  4. Övervaka jobbframsteg
      • Spåra kartan och minska procentsatserna i terminalfönstret.
      • Åtkomst till webbgränssnittet (vanligtvis på port 8088) för att se status för ResourceManager.
  5. Hämta resultat
      • Lista de genererade filerna i utdatamappen: hdfs dfs -ls /output_data.
      • Visa det bearbetade innehållet: hdfs dfs -cat /output_data/part-r-00000.

Jämförelse av exekveringslägen

Hadoop tillåter användare att köra program i olika miljöer beroende på omfattningen av data och tillgänglig hårdvara.

Exekveringsläge Hårdvarukrav Primärt användningsfall Konfigurationsnivå
Lokalt (fristående) Enskild arbetsstation Initial kodfelsökning Minimal (standard)
Pseudo-distribuerad Enskild servernod Funktionstestning Medium
Fullt distribuerad Flera servernoder Produktionsbearbetning Hög

Vanliga exekveringskommandon


Copyright ©caneslat.pages.dev 2026