In deze tutorial zullen we u stap voor stap door het proces leiden om Apache Hadoop op een Linux-box (Ubuntu) te installeren. Dit is een tweedelig proces
- Deel 1) Download en installeer Hadoop
- Deel 2) Configureer Hadoop
Er zijn 2 vereisten
- U moet Ubuntu hebben geïnstalleerd en actief zijn
- U moet Java hebben geïnstalleerd.
Deel 1) Download en installeer Hadoop
Stap 1) Voeg een Hadoop-systeemgebruiker toe met de onderstaande opdracht
sudo addgroup hadoop_
sudo adduser --ingroup hadoop_ hduser_
Voer uw wachtwoord, naam en andere gegevens in.
OPMERKING: Er is een mogelijkheid van onderstaande fout in dit installatie- en installatieproces.
"hduser staat niet in het sudoers-bestand. Dit incident wordt gerapporteerd."
Deze fout kan worden opgelost door in te loggen als root-gebruiker
Voer het commando uit
sudo adduser hduser_ sudo
Re-login as hduser_
Stap 2) Configureer SSH
Om knooppunten in een cluster te beheren, heeft Hadoop SSH-toegang nodig
Schakel eerst van gebruiker en voer de volgende opdracht in
su - hduser_
Met deze opdracht wordt een nieuwe sleutel gemaakt.
ssh-keygen -t rsa -P ""
Schakel SSH-toegang tot de lokale machine in met deze sleutel.
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Test nu de SSH-instellingen door verbinding te maken met localhost als 'hduser'-gebruiker.
ssh localhost
Opmerking: Let op: als u onderstaande fout ziet in reactie op 'ssh localhost', is er een mogelijkheid dat SSH niet beschikbaar is op dit systeem-
Om dit op te lossen -
Purgeer SSH met,
sudo apt-get purge openssh-server
Het is een goede gewoonte om door te spoelen voordat u met de installatie begint
Installeer SSH met behulp van de opdracht-
sudo apt-get install openssh-server
Stap 3) De volgende stap is om Hadoop te downloaden
Selecteer Stabiel
Selecteer het tar.gz-bestand (niet het bestand met src)
Zodra een download is voltooid, navigeert u naar de map met het tar-bestand
Invoeren,
sudo tar xzf hadoop-2.2.0.tar.gz
Hernoem nu hadoop-2.2.0 als hadoop
sudo mv hadoop-2.2.0 hadoop
sudo chown -R hduser_:hadoop_ hadoop
Deel 2) Configureer Hadoop
Stap 1) Wijzig het ~ / .bashrc- bestand
Voeg de volgende regels toe aan het einde van het bestand ~ / .bashrc
#Set HADOOP_HOMEexport HADOOP_HOME=#Set JAVA_HOMEexport JAVA_HOME= # Add bin/ directory of Hadoop to PATHexport PATH=$PATH:$HADOOP_HOME/bin
Geef nu deze omgevingsconfiguratie op met de onderstaande opdracht
. ~/.bashrc
Stap 2) Configuraties met betrekking tot HDFS
Zet JAVA_HOME in bestand $ HADOOP_HOME / etc / hadoop / hadoop-env.sh
Met
Er zijn twee parameters in $ HADOOP_HOME / etc / hadoop / core-site.xml die moeten worden ingesteld-
1. 'hadoop.tmp.dir' - Wordt gebruikt om een map op te geven die door Hadoop zal worden gebruikt om zijn gegevensbestanden op te slaan.
2. 'fs.default.name' - Dit specificeert het standaard bestandssysteem.
Open core-site.xml om deze parameters in te stellen
sudo gedit $HADOOP_HOME/etc/hadoop/core-site.xml
Kopieer onderstaande regel tussen tags
hadoop.tmp.dir /app/hadoop/tmp Parent directory for other temporary directories. fs.defaultFS hdfs://localhost:54310 The name of the default file system.
Navigeer naar de map $ HADOOP_HOME / etc / Hadoop
Maak nu de directory aan die wordt genoemd in core-site.xml
sudo mkdir -p
Verleen machtigingen voor de directory
sudo chown -R hduser_:Hadoop_
sudo chmod 750
Stap 3) Configuratie verkleinen
Voordat u met deze configuraties begint, moeten we het HADOOP_HOME-pad instellen
sudo gedit /etc/profile.d/hadoop.sh
En ga naar binnen
export HADOOP_HOME=/home/guru99/Downloads/Hadoop
Voer vervolgens in
sudo chmod +x /etc/profile.d/hadoop.sh
Verlaat de Terminal en start opnieuw op
Typ echo $ HADOOP_HOME. Om het pad te verifiëren
Kopieer nu bestanden
sudo cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml
Open het bestand mapred-site.xml
sudo gedit $HADOOP_HOME/etc/hadoop/mapred-site.xml
Voeg onderstaande regels toe tussen de tags
mapreduce.jobtracker.address localhost:54311 MapReduce job tracker runs at this host and port.
Open $ HADOOP_HOME / etc / hadoop / hdfs-site.xml zoals hieronder,
sudo gedit $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Voeg onderstaande regels toe tussen de tags
dfs.replication 1 Default block replication. dfs.datanode.data.dir /home/hduser_/hdfs
Maak een map gespecificeerd in bovenstaande instelling-
sudo mkdir -p
sudo mkdir -p /home/hduser_/hdfs
sudo chown -R hduser_:hadoop_
sudo chown -R hduser_:hadoop_ /home/hduser_/hdfs
sudo chmod 750
sudo chmod 750 /home/hduser_/hdfs
Stap 4) Voordat we Hadoop voor de eerste keer starten, moet u HDFS formatteren met de onderstaande opdracht
$HADOOP_HOME/bin/hdfs namenode -format
Stap 5) Start het Hadoop-cluster met één knooppunt met de onderstaande opdracht
$HADOOP_HOME/sbin/start-dfs.sh
Een uitvoer van bovenstaande opdracht
$HADOOP_HOME/sbin/start-yarn.sh
Controleer met behulp van de 'jps'- tool / -opdracht of alle Hadoop-gerelateerde processen actief zijn of niet.
Als Hadoop met succes is gestart, moet een uitvoer van jps NameNode, NodeManager, ResourceManager, SecondaryNameNode, DataNode weergeven.
Stap 6) Hadoop stoppen
$HADOOP_HOME/sbin/stop-dfs.sh
$HADOOP_HOME/sbin/stop-yarn.sh