Hoe Hadoop te installeren met stapsgewijze configuratie op Ubuntu

Inhoudsopgave:

Anonim

In deze tutorial zullen we u stap voor stap door het proces leiden om Apache Hadoop op een Linux-box (Ubuntu) te installeren. Dit is een tweedelig proces

  • Deel 1) Download en installeer Hadoop
  • Deel 2) Configureer Hadoop

Er zijn 2 vereisten

  • U moet Ubuntu hebben geïnstalleerd en actief zijn
  • U moet Java hebben geïnstalleerd.

Deel 1) Download en installeer Hadoop

Stap 1) Voeg een Hadoop-systeemgebruiker toe met de onderstaande opdracht

sudo addgroup hadoop_

sudo adduser --ingroup hadoop_ hduser_

Voer uw wachtwoord, naam en andere gegevens in.

OPMERKING: Er is een mogelijkheid van onderstaande fout in dit installatie- en installatieproces.

"hduser staat niet in het sudoers-bestand. Dit incident wordt gerapporteerd."

Deze fout kan worden opgelost door in te loggen als root-gebruiker

Voer het commando uit

sudo adduser hduser_ sudo

Re-login as hduser_

Stap 2) Configureer SSH

Om knooppunten in een cluster te beheren, heeft Hadoop SSH-toegang nodig

Schakel eerst van gebruiker en voer de volgende opdracht in

su - hduser_

Met deze opdracht wordt een nieuwe sleutel gemaakt.

ssh-keygen -t rsa -P ""

Schakel SSH-toegang tot de lokale machine in met deze sleutel.

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Test nu de SSH-instellingen door verbinding te maken met localhost als 'hduser'-gebruiker.

ssh localhost

Opmerking: Let op: als u onderstaande fout ziet in reactie op 'ssh localhost', is er een mogelijkheid dat SSH niet beschikbaar is op dit systeem-

Om dit op te lossen -

Purgeer SSH met,

sudo apt-get purge openssh-server

Het is een goede gewoonte om door te spoelen voordat u met de installatie begint

Installeer SSH met behulp van de opdracht-

sudo apt-get install openssh-server

Stap 3) De volgende stap is om Hadoop te downloaden

Selecteer Stabiel

Selecteer het tar.gz-bestand (niet het bestand met src)

Zodra een download is voltooid, navigeert u naar de map met het tar-bestand

Invoeren,

sudo tar xzf hadoop-2.2.0.tar.gz

Hernoem nu hadoop-2.2.0 als hadoop

sudo mv hadoop-2.2.0 hadoop

sudo chown -R hduser_:hadoop_ hadoop

Deel 2) Configureer Hadoop

Stap 1) Wijzig het ~ / .bashrc- bestand

Voeg de volgende regels toe aan het einde van het bestand ~ / .bashrc

#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME=# Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin

Geef nu deze omgevingsconfiguratie op met de onderstaande opdracht

. ~/.bashrc

Stap 2) Configuraties met betrekking tot HDFS

Zet JAVA_HOME in bestand $ HADOOP_HOME / etc / hadoop / hadoop-env.sh

Met

Er zijn twee parameters in $ HADOOP_HOME / etc / hadoop / core-site.xml die moeten worden ingesteld-

1. 'hadoop.tmp.dir' - Wordt gebruikt om een ​​map op te geven die door Hadoop zal worden gebruikt om zijn gegevensbestanden op te slaan.

2. 'fs.default.name' - Dit specificeert het standaard bestandssysteem.

Open core-site.xml om deze parameters in te stellen

sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml

Kopieer onderstaande regel tussen tags

hadoop.tmp.dir/app/hadoop/tmpParent directory for other temporary directories.
fs.defaultFS hdfs://localhost:54310The name of the default file system. 

Navigeer naar de map $ HADOOP_HOME / etc / Hadoop

Maak nu de directory aan die wordt genoemd in core-site.xml

sudo mkdir -p 

Verleen machtigingen voor de directory

sudo chown -R hduser_:Hadoop_ 

sudo chmod 750 

Stap 3) Configuratie verkleinen

Voordat u met deze configuraties begint, moeten we het HADOOP_HOME-pad instellen

sudo gedit /etc/profile.d/hadoop.sh

En ga naar binnen

export HADOOP_HOME=/home/guru99/Downloads/Hadoop

Voer vervolgens in

sudo chmod +x /etc/profile.d/hadoop.sh

Verlaat de Terminal en start opnieuw op

Typ echo $ HADOOP_HOME. Om het pad te verifiëren

Kopieer nu bestanden

sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

Open het bestand mapred-site.xml

sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml

Voeg onderstaande regels toe tussen de tags en

mapreduce.jobtracker.addresslocalhost:54311MapReduce job tracker runs at this host and port.

Open $ HADOOP_HOME / etc / hadoop / hdfs-site.xml zoals hieronder,

sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Voeg onderstaande regels toe tussen de tags en

dfs.replication1Default block replication.
dfs.datanode.data.dir/home/hduser_/hdfs

Maak een map gespecificeerd in bovenstaande instelling-

sudo mkdir -p 
sudo mkdir -p /home/hduser_/hdfs

sudo chown -R hduser_:hadoop_ 
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs

sudo chmod 750 
sudo chmod 750 /home/hduser_/hdfs

Stap 4) Voordat we Hadoop voor de eerste keer starten, moet u HDFS formatteren met de onderstaande opdracht

$HADOOP_HOME/bin/hdfs namenode -format

Stap 5) Start het Hadoop-cluster met één knooppunt met de onderstaande opdracht

$HADOOP_HOME/sbin/start-dfs.sh

Een uitvoer van bovenstaande opdracht

$HADOOP_HOME/sbin/start-yarn.sh

Controleer met behulp van de 'jps'- tool / -opdracht of alle Hadoop-gerelateerde processen actief zijn of niet.

Als Hadoop met succes is gestart, moet een uitvoer van jps NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode weergeven.

Stap 6) Hadoop stoppen

$HADOOP_HOME/sbin/stop-dfs.sh

$HADOOP_HOME/sbin/stop-yarn.sh