Ich werde für mein Projekt mit der Programmiersprache Python und den passenden NLP-Bibliotheken arbeiten. Folgende Bibliotheken stehen zum Beispiel für Python zur Verfügung:
- Natural Language Toolkit (NLTK)
- TextBlob
- CoreNLP
- Gensim
- spaCy
- polyglot
- scikit-learn
- Pattern
- AllenNLP
- PyNLPI
- Vocabulary
- Quepy
- Flair
Meine Wahl fällt auf NLTK, da sich diese Bibliothek gut für Einsteiger in das Feld eignet. NLTK wurde 2001 als Teil eines Computerlinguistik-Kurses des Fachbereichs Computer und Information Sciences and der Universität Pennsylvania geschaffen und seitdem stetig weiterentwickelt. Inzwischen wird es in vielen Universitäts-Kursen gelehrt und für diverse wissenschaftliche Projekte genutzt. (Bird/Klein/Loper 2009, XIV)
Erste Schritte: Vorbereitung
Ich gehe davon aus, dass meine Leser über Python-Grundkenntnisse verfügen und bereits ein grundlegendes Setup bereit steht. Trotzdem hier noch einmal ein paar wertvolle Hinweise. Python könnt ihr ganz einfach über den Download-Bereich der Python-Website herunterladen: Hier. Mit dem Download kommt auch gleich eine kleine Entwicklungsumgebung: IDLE. Ich bevorzuge jedoch PyCharm: Hier. Weitere mögliche IDE sind zum Beispiel KDevelop, THONNY, Visual Studio, Atom, LiClipse, Spyder, Pyzo, Geany – oder ihr nutzt Jupiter Notebooks.
Ihr solltet also die neueste Python-Version und eine Entwicklungsumgebung eurer Wahl installiert haben. Dann kann es losgehen.
Um NLTK zu installieren, öffnet bitte das Terminal oder eure Konsole und gebt folgenden Code ein:
pip3 install nltk
NTLTK sollte nun auf eurem Rechner installiert sein. Öffnet nur eure Entwicklungsumgebung und hier das Terminal. Dann gebt folgende Befehle ein:
Python3
>>> import nltk
>>> nltk.download()
Es sollte sich ein Pop-up-Fenster mit dem NLTK-Downloader öffnen:
Nun installiert bitte alle Programme, welche in diesem Fenster angezeigt werden. Wenn der Vorgang abgeschlossen ist, seid ihr bereit für die Arbeit mit NLTK.
Quellen
Bird, Steven; Klein, Ewan; Loper, Edward. 2009. Natural Language Processing with Python. Sebastopol: O’Reilley.