In deze tutorial leer je -
- NLTK installeren in Windows
- Python installeren in Windows
- NLTK installeren in Mac / Linux
- NLTK installeren via Anaconda
- NLTK-gegevensset
- Hoe alle pakketten van NLTK te downloaden
- Het NLP-script uitvoeren
- NLTK-script uitvoeren
NLTK installeren in Windows
In dit deel zullen we leren hoe u NLTK kunt instellen via de terminal (opdrachtprompt in Windows).
De onderstaande instructie is gebaseerd op de aanname dat python niet is geïnstalleerd. Dus de eerste stap is om python te installeren.
Python installeren in Windows:
Stap 1) Ga naar koppelen https://www.python.org/downloads/ , en selecteert u de laatste versie voor Windows.
Opmerking : als u de nieuwste versie niet wilt downloaden, kunt u naar het downloadtabblad gaan en alle releases bekijken.
Stap 2) Klik op het gedownloade bestand
Stap 3) Selecteer Installatie aanpassen
Stap 4) Klik op VOLGENDE
Stap 5) In het volgende scherm
- Selecteer de geavanceerde opties
- Geef een aangepaste installatielocatie. In mijn geval is een map op de C-schijf gekozen voor gebruiksgemak
- Klik op Installeren
Stap 6) Klik op de knop Sluiten zodra de installatie is voltooid.
Stap 7) Kopieer het pad van uw Scripts-map.
Stap 8) In de Windows-opdrachtprompt
- Navigeer naar de locatie van de pip-map
- Voer de opdracht in om NLTK te installeren
pip3 install nltk
- De installatie moet met succes worden uitgevoerd
OPMERKING : gebruik voor Python2 de commandpip2 install nltk
Stap 9) Zoek en open PythonShell in het menu Start van Windows
Stap 10) U kunt controleren of de installatie correct is door het onderstaande commando op te geven
import nltk
Als u geen fout ziet, is de installatie voltooid.
NLTK installeren in Mac / Linux
Voor het installeren van NLTK in Mac / Unix is python-pakketbeheerder pip vereist om nltk te installeren. Als pip niet is geïnstalleerd, volg dan de onderstaande instructies om het proces te voltooien
Stap 1) Werk de pakketindex bij door het onderstaande commando te typen
sudo apt update
Stap 2) Pip installeren voor Python 3:
sudo apt install python3-pip
U kunt pip ook installeren met easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Nu is easy_install geïnstalleerd. Voer de onderstaande opdracht uit om pip te installeren
sudo easy_install pip
Step3) Gebruik de volgende opdracht om NLTK te installeren
sudo pip install -U nltksudo pip3 install -U nltk
NLTK installeren via Anaconda
Stap 1) Installeer anaconda (die ook kan worden gebruikt om verschillende pakketten te installeren) door naar https://www.anaconda.com/products/individual te gaan en selecteer welke versie van python je voor anaconda moet installeren.
Opmerking: raadpleeg deze tutorial voor gedetailleerde stappen om anaconda te installeren
Stap 2) In de Anaconda-prompt,
- Voer het commando in
conda install -c anaconda nltk
- Bekijk de pakketupgrade, downgrade, installeer-informatie en voer ja in
- NLTK wordt gedownload en geïnstalleerd
NLTK-gegevensset
NLTK-module heeft veel datasets beschikbaar die u moet downloaden om te gebruiken. Meer technisch heet het corpus . Enkele voorbeelden zijn stopwoorden , gutenberg , framenet_v15 , large_grammars enzovoort.
Hoe alle pakketten van NLTK te downloaden
Stap 1) Voer de Python-interpreter uit in Windows of Linux
Stap 2)
- Voer de commando's in
import nltknltk.download ()
- NLTK gedownload venster wordt geopend. Klik op de downloadknop om de dataset te downloaden. Dit proces kost tijd, afhankelijk van uw internetverbinding
OPMERKING: u kunt de downloadlocatie wijzigen door op Bestand> Downloadmap wijzigen te klikken
Stap 3) Gebruik de volgende code om de geïnstalleerde gegevens te testen
>>> from nltk.corpus import brown>>>brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
Het NLP-script uitvoeren
We gaan bespreken hoe het NLP-script zal worden uitgevoerd op onze lokale pc. Er zijn veel bibliotheken voor natuurlijke taalverwerking op de markt. Het kiezen van een bibliotheek hangt dus af van het voldoen aan uw eisen. Hier is de lijst met NLP-bibliotheken.
NLTK-script uitvoeren
Stap 1) Kopieer de code in je favoriete code-editor en sla het bestand op als " NLTKsample.py "
from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)
Code Verklaring:
- In dit programma was het doel om alle soorten leestekens uit bepaalde tekst te verwijderen. We hebben "RegexpTokenizer" geïmporteerd, een module van NLTK. Het verwijdert alle uitdrukkingen, symbolen, tekens, cijfers of andere dingen die u maar wilt.
- U heeft zojuist de reguliere expressie doorgegeven aan de "RegexpTokenizer" -module.
- Verder hebben we het woord tokenized met behulp van de "tokenize" -module. De output wordt opgeslagen in de "filterdText" variabele.
- En drukte ze af met "print ()."
Step2) In de opdrachtprompt
- Navigeer naar de locatie waar u het bestand heeft opgeslagen
- Voer het commando Python NLTKsample.py uit
Dit toont de uitvoer als:
['Hello', 'Guru99', 'You', 'have', 'build', 'a', 'very', 'good', 'site', 'and', 'I', 'love', ' het bezoeken van ',' uw ',' site ']