Köra MapReduce-jobb i ett Hadoop-kluster

Att köra ett MapReduce-program kräver ett strukturerat tillvägagångssätt som involverar kodkompilering, datahantering i Hadoop Distributed File System (HDFS) och jobbinlämning via kommandoradsgränssnittet.

Steg-för-steg exekveringsprocess

Förbered MapReduce-koden
Konfigurera indata i HDFS
Skicka in MapReduce-jobbet
Övervaka jobbframsteg
Hämta resultat

Jämförelse av exekveringslägen

Hadoop tillåter användare att köra program i olika miljöer beroende på omfattningen av data och tillgänglig hårdvara.

Exekveringsläge	Hårdvarukrav	Primärt användningsfall	Konfigurationsnivå
Lokalt (fristående)	Enskild arbetsstation	Initial kodfelsökning	Minimal (standard)
Pseudo-distribuerad	Enskild servernod	Funktionstestning	Medium
Fullt distribuerad	Flera servernoder	Produktionsbearbetning	Hög

Vanliga exekveringskommandon

hadoop-version: Kontrollerar den installerade Hadoop-versionen och verifierar sökvägsinställningar.
hdfs dfs -rm -r /output_data: Tar bort utdatakatalogen för att möjliggöra en omkörning av jobbet.
yarn application -list: Visar MapReduce-program som körs för närvarande.
yarn application -kill [application_id]: Stoppar ett specifikt jobb om det stöter på fel eller hänger sig.