TXT Werk: Deutsche Textanalyse-Frameworks unter der Lupe

TXT Werk API: enabling text analysis
02. September 2019

Deutschsprachige NLP-Frameworks unter der Lupe

Die automatisierte Analyse von natürlichsprachlichen Textdaten gewinnt für Unternehmen immer mehr an Bedeutung. So kommt eine automatisierte Textanalyse bei der Verwendung automatischer Sprachassistenten (Chatbots) ebenso wie im Rahmen einer intelligenten Suche in Textdaten sowie bei inhaltsbasierten Empfehlungssystemen zum Einsatz. Wer deutschsprachige Textdaten analysieren möchte, muss das Rad aber nicht neu erfinden: Denn eine Vielzahl von Firmen entwickeln und optimieren dafür tagtäglich dedizierte Textanalyse-Frameworks, welche in unterschiedlichem Grad die spezifischen Eigenheiten der deutschen Sprache berücksichtigen.

Die Komplexität natürlicher Sprache und die Unterschiede zwischen einzelnen Sprachen stellen dabei große Herausforderungen an die Entwickler, welche gezwungen sind, Schwerpunkte zu setzen. Entsprechend umfangreich ist das Spektrum an Lösungen, die zur Verfügung stehen. So werden beispielsweise auch von großen Firmen wie Google oder Microsoft Textanalyse-Frameworks angeboten, die aber für eine Vielzahl von Sprachen verfügbar sind und daher keinen Fokus auf die Analyse explizit deutschsprachiger Textdaten legen.

Das KI-Team der Neofonie hat das Anbieterfeld für Textanalyse-Frameworks, die in der Lage sind, auch deutsche Textdaten zu verarbeiten, untersucht und verschiedene Frameworks getestet. Zur Beantwortung der Frage nach dem passenden Textanalyse-Framework leisten diese Informationen einen wichtigen Beitrag. Eine Kurzfassung der Analyse stellen wir hier vor.

Einen detaillierten Überblick über die Anforderungen, die Anbieter-Tests sowie die Ergebnisse präsentieren wir in unserem Whitepaper “Die wichtigsten deutschsprachigen NLP-Frameworks unter der Lupe”.

Die Anbieter für deutschsprachige Textanalyse

Die Auswahl an Textanalyse Anbietern ist groß und jeder setzt eigene Schwerpunkte, weshalb ein Vergleich schwierig ist. Dennoch haben wir uns für 17 Anbieter entschieden, die wir als repräsentativ für das Spektrum der deutschen NLP-Frameworks erachten und sich in Anzahl und Art der unterstützten Funktionen ähneln. Unser Fokus lag dabei explizit auf der Verarbeitung deutscher Texte. Die Auswahl erhebt jedoch keinen Anspruch auf Vollständigkeit.

Unter den Anbietern befinden sich u.a. IBM (Natural Language Understanding), Google (Natural Language), Retresco, Microsoft (Textanalysen), Intrafind, Deepset und Averbis. Eine Kurzbeschreibung aller Anbieter und ihrer Schwerpunktsetzung kann in Abschnitt 3 im Whitepaper nachgelesen werden.

Der NLP Framework Vergleich

Worin unterscheiden sich die Anbieter und ihre Frameworks und in welchen Bereichen liegen die Unterschiede? Die Verarbeitung natürlichsprachlicher Textdaten (Natural Language Processing, kurz: NLP) kann über ganz verschiedene Ansätze realisiert werden. Für die Analyse der verschiedenen Anbieter haben wir eine Liste an Funktionalitäten erstellt, welche es ermöglichen, den Inhalt von Textdaten durch den Computer sinnvoll abzubilden.

Die Vielzahl von möglichen Funktionalitäten innerhalb eines solchen Frameworks erschwert die Vergleichbarkeit hinsichtlich der Qualität enorm. Um trotzdem einen Überblick über die Performance der einzelnen Frameworks zu erlangen, haben wir drei der am häufigsten unterstützten Funktionalitäten herausgegriffen und für jeden Anbieter Qualitätstests anhand verschiedener Beispieltexte (News und Reviews) durchgeführt. Es handelt sich um folgende drei Textanalyse-Werkzeuge:

  • Named Entity Recognition & Linking
  • Sentiment-Analyse
  • Textklassifikation

Darüber hinaus sind aber auch Funktionalitäten wie z. B. Spracherkennung, Textvergleiche und -zusammenfassungen sowie Schlüsselworterkennung (Keyword Extraction) in vielen Textanalyse-Frameworks integriert.

Für jedes der drei oben genannten Werkzeuge haben wir pro Anbieter bewertet, wie hoch der angebotene Funktionsumfang ist und wie gut die eigentliche Analyse funktioniert. Allerdings waren Tests nur für diejenigen Anbieter möglich, die einen Testzugang oder eine Demoversion zur Verfügung stellen.

Named Entity Recognition & Linking

Unsere Tests haben ergeben, dass im Bereich Named Entity Recognition & Linking sowohl der Funktionsumfang als auch die Qualität sehr unterschiedlich ausfällt. Den höchsten Umfang bieten Dandelion, Google, die Neofonie, Rosette und Textrazor an. Konkret heißt das, dass die Frameworks dieser Anbieter Entitäten nicht nur extrahieren, sondern auch einer von mindestens 5 Kategorien (wie z.B. Personen, Orten, etc.) zuordnen und ein umfassendes Entity-Linking unterstützen.

Der deutsche Markt für NER (inkl. Entity Linking) nach Tests von Demoversionen bzw. Testzugängen.
Der deutsche Markt für NER (inkl. Entity Linking) nach Tests von Demoversionen bzw. Testzugängen.

Sentiment-Analyse

Im Bereich Sentiment-Analyse stecken fast alle NLP-Frameworks noch in den Kinderschuhen. Sofern eine Sentiment-Analyse überhaupt unterstützt wird, besteht sie in der Regel schlicht aus einer Angabe eines grundsätzlichen Sentiments (positiv, neutral oder negativ) für den gesamten untersuchten Text.

Textklassifikation

Ganz anders sieht es bei der Textklassifizierung aus, also der Zuordnung eines Textes in einen übergeordneten Themenbereich (ähnlich den Ressorts in Zeitungen). Hier konnten zwar nur fünf Anbieter getestet werden, nämlich IBM, Lexalytics, die Neofonie, Repustate sowie Textrazor. Aber alle fünf Anbieter erbringen bei der Textklassifizierung sinnvolle Resultate. Den Funktionsumfang betreffend sticht hier nur IBM heraus, das eine hierarchische Klassifikation von Texten in Kategorien und Subkategorien ermöglicht.

Fazit

17 Anbieter für deutschsprachige NLP-Frameworks haben wir im Rahmen unseres Whitepapers untersucht: jeder dieser Anbieter setzt einen ganz eigenen Schwerpunkt und zeigt daher Schwächen im einen und Stärken in einem anderen Bereich. Insgesamt ergibt sich also ein sehr diverses Bild. Dennoch ist deutlich geworden, dass es nur auf den konkreten Anwendungsfall ankommt: denn einen Anbieter mit passender Spezialisierung wird man immer finden. Es ist allerdings sinnvoll, sich vorher mit den eigenen Wünschen und Bedürfnissen im Bereich deutschsprachige Textanalyse intensiv auseinanderzusetzen und gegebenenfalls auch eine Beratung in Anspruch zu nehmen.

Für weitere Informationen zu unseren Tests der Textanalyse-Frameworks schauen Sie gern in unser Whitepaper.

Registrieren Sie sich dafür mit Ihrem Namen und Ihrer E-Mail Adresse.

Hinweis:
Generelle Informationen zum Umgang mit Daten finden Sie in unseren Datenschutzbestimmungen.

Kontaktieren Sie uns

Sie möchten weitere Informationen erhalten? Sie haben weitere Fragen? Nehmen Sie mit uns Kontakt auf!

Über uns


TXT Werk ist die Textmining API der Neofonie GmbH, ein in Berlin ansässiger Fullservice Provider, spezialisiert auf Portale, Suche, Sozial Media, E-Publishing und Entwicklung mobiler Applikationen.

Impressum


Neofonie GmbH
Robert-Koch-Platz 4
10115 Berlin, Germany
Phone: +49 30 24627-0
Website: https://www.neofonie.de

Amtsgericht Berlin-Charlottenburg
HRB 67 460 - Sitz Berlin
Geschäftsführung:
Thomas Kitlitschko
USt-ID: DE 194 693 995

Sie benötigen Hilfe?


Sie können weitere Informationen in der Dokumentation der TXT Werk API erhalten.



2018 neofonie GmbH
Datenschutzerklärung