Natural Language Processing

Im Bereich Legal Tech beschäftigen wir uns regelmäßig mit Fragen zu Künstlicher Intelligenz, Algorithmen und automatisierten Entscheidungen oder Unterstützungshandlungen durch Technikgestaltung. Dazu konnten wir feststellen, dass dies in den Lebens- und Arbeitsbereichen einfacher ist, in denen es klare Antworten im Sinne von „Ja“ und „Nein“ oder rechnerische Ergebnisse und Zahlenfolgen gibt. Im juristischen Bereich fehlt es sehr oft an einer solchen klaren Abgrenzbarkeit. Nur in wenigen Fällen ist die Entscheidung nach objektiven einfachen Kriterien klar festzulegen, sodass eindeutige und fehlerfreie Schlüsse gezogen werden können. Viel häufiger kommt es dazu, dass mehrere Möglichkeiten vertretbar sind, Handlungsspielräume bestehen oder erst eine Auslegung der Umstände und Gesetze sowie eine Abwägung zu einem Ergebnis führen. Dazu notwendig ist regelmäßig auch eine vorherige rechtliche Recherche zu Kommentierungen, Meinungsdarstellungen und Rechtsprechung in verschiedenen Streitfragen.
Um dieser sprachlichen Prägung gerecht zu werden und Lösungen für den Rechtsmarkt zu finden, liegt es nahe, sich der Methodik des Natural Language Processing zu widmen. Das NLP ist ein interdisziplinäres Fachgebiet der Informatik und versucht natürliche Sprache zu erfassen und zu verarbeiten. Die Ursprünge liegen hierbei schon viele Jahre zurück, wobei NLP vor 20 Jahren nur zu sehr rudimentären Lösungsansätzen fähig war, wie z.B. die Identifikation von Nomen, Verben und Adjektiven oder das Aufteilen von Sätzen. 1 Doch mit dem technischen Fortschritt der letzten Jahre stiegen auch die Möglichkeiten der Spracherfassung und schon 10 Jahre später war es möglich, Wörter im Kontext zu verstehen und Eigennamen automatisch zu identifizieren und klassifizieren.2
Natural Language Processing ist traditionell durch regelbasierte Ansätze geprägt, bei denen zugrundeliegende, aus der Linguistik informierte “Regeln der Sprache” (wie Grammatik, Syntax, Morphologie und Semantik) formalisiert werden. Durch diese Formalisierung linguistischer Prinzipien ist es möglich, diese Regeln maschinell zu verarbeiten und auf Textbeispiele anzuwenden.
Moderne Anwendungsbeispiele des regelbasierten NLP umfassen die syntaktische und grammatikalische Analyse von Texten (z.B. Parsing und Konstituentenanalyse, sowie das Part-of-Speech Tagging zur Kategorisierung von Wörtern). In der Morphologie ermöglichen Lemmatisierung und Stemming die Reduktion von Wörtern auf ihre Grundformen bzw. Wortstämme, was insbesondere traditionell bei Suchmaschinen Anwendung findet. Semantische Analysen nutzen Werkzeuge wie WordNet zur Darstellung lexikalischer Beziehungen und die Identifikation semantischer Rollen. Named Entity Recognition (NER) klassifiziert Eigennamen in Texten. In der Pragmatik und Diskursanalyse werden Techniken wie Anaphernauflösung und Diskursanalyse angewendet, um Referenzbeziehungen und Kohärenz zu bestimmen. Informationsverarbeitungsfähigkeiten wie Informationsextraktion und Textklassifikation erleichtern die automatische Strukturierung und Kategorisierung von Texten. Sentimentanalyse und Subjektivitätsanalyse helfen bei der Bestimmung von Meinungen und Stimmungen in Texten. Regelbasierte maschinelle Übersetzungssysteme nutzen syntaxbasierte Ansätze zur präzisen Übersetzung von Texten zwischen Sprachen.
Im Gegensatz zu statistischen Methoden, welche ebenfalls unter den Deckmantel des Natural Processing fallen und auch eine lange Forschungshistorie in der interdisziplinären Informatik besitzen, sind regelbasierte NLP Methoden allerdings durch eine gewisse Starrheit geprägt, bei denen klar definierte Regeln der Sprache regelmäßig nicht der gesamten Vielfalt der Sprache und Sprachverwendung in allen Nuancen gerecht werden können. Insbesondere beim semantischen Verständnis von Texten stößt eine regelbasierte Abbildung der Sprache häufig an Grenzen.
Nichtsdestotrotz wird moderne regelbasierte NLP Methodik u.A. aufgrund ihrer Recheneffizienz und Berechenbarkeit heute in zahlreichen Anwendungsfällen erfolgreich eingesetzt. Weiterhin sind einige Techniken aus dem regelbasierten NLP wichtige Grundbausteine auf denen für die Entwicklung von statistischen und modernen neuronalen Ansätzen (z.B. durch Tokenisierung und Textvorverarbeitung) aufgebaut wird.
Ob und inwiefern aktuelle generative Sprachmodelle zu NLP gehören ist streitbar. Jedenfalls ist durch sie, popularisiert durch ChatGPT, ein Quantensprung im Sprachverständnis und der Sprachgeneration erreicht worden. Letztere, auch als Large Language Models (LLMs) bekannt, bauen allerdings auf einer grundlegend anderen technischen Architektur auf und verwenden traditionelle NLP Techniken nur komplementär.
Large Language Models (LLMs) wie die populären GPT-Modelle (Generative Pre-trained Transformer) sowie LLama 3 oder Mistral 8x7B basieren auf einer Architektur, die als Transformer bekannt ist. Diese Architektur nutzt Mechanismen der Selbst- und Kreuzaufmerksamkeit, um Beziehungen und Abhängigkeiten zwischen Wörtern in einem Text zu erkennen und zu interpretieren. Ein wesentlicher Aspekt dieser Modelle ist ihr pre-training auf außerordentlich umfangreichen Textdatenbanken (im wesentlichen große Teile des frei verfügbaren Internets), durch das sie allgemeine Sprachmuster und Kontextabhängigkeiten lernen. Nach diesem vorbereitenden Training werden LLMs weiter auf spezifische Aufgaben wie Textverständnis, Textgenerierung oder Übersetzung trainiert (fine-tuning). Die Effizienz der LLMs basiert auf ihrer Fähigkeit, aus einem großen Volumen von Trainingsdaten zu lernen und diese Erkenntnisse auf neue, ähnliche Aufgaben zu übertragen. Ihre tief gestaffelten neuronalen Netzwerkstrukturen ermöglichen es ihnen, auch subtile Nuancen in der Sprachverwendung zu erfassen und zu generieren.
Mit heutiger generativer KI sind vielmals auch Aufgaben lösbar, die mit menschlichen Lösungsfähigkeiten vergleichbar sind, darunter Textzusammenfassungen, die automatische Erstellung glaubwürdiger Nachrichten, Textverständnis oder die Beantwortung von Fragen.3 Diese Möglichkeiten führen auch im juristischen Bereich zu vielen potentiellen Anwendungen oder auch der Unterstützung in Recherchearbeiten. Der kombinierte Einsatz linguistischer und informatischer Methoden – insbesondere traditionelles NLP und generative KI – soll so auch im Rechtswesen ein weitreichend funktionierenden Austausch zwischen Mensch und Maschine ermöglichen.4
Eingesetzt wird die Technologie im juristischen Bereich besonders bei Recherchearbeiten zur Unterstützung beim Finden relevanter Informationen und Gerichtsentscheidungen, beim Überprüfen von Verträgen, bei der Dokumentenautomation, bei der E-Discovery und bei der rechtlichen Beratung (zu diesen Einsatzgebieten siehe auch unser Intro).6 Mit steigenden technischen Möglichkeiten, Rechenleistungen und Fortentwicklungen der Technologien ist zu erwarten, dass auch der breite Einsatz im Rechtswesen zunehmen wird und die Anwendungsfelder weiter werden. Natural Language Processing und generative KI wird so in Zukunft einen großen Einfluss auf Legal Tech Anwendungen und den Rechtsmarkt haben.
Zu Beispielen für moderne generative Sprachmodelle, welche speziell für juristisches Arbeiten durch Finetuning angepasst wurden zählen in Deutschland der sich in Entwicklung befindliche “Beck Chat” und “Harvey AI” in den Vereinigten Staaten. Beide Beispiele basieren auf vortrainierten Modellen des für ChatGPT bekannten Entwicklungsstudios OpenAI.
Für technische Hintergründe, Möglichkeiten und aktuelle Einsatz- und Forschungsgebiete von Legal Tech und Natural Language Processing könnt ihr auf unser Video von Legal Tech Prof. Grabmair von der TUM zurückgreifen, der die Themen in seiner (englischen) Vorlesung aus informatischer Sicht betrachtet.7
- https://www.suls.org.au/citations-blog/2020/9/25/natural-language-processing .
- https://www.suls.org.au/citations-blog/2020/9/25/natural-language-processing.
- https://www.suls.org.au/citations-blog/2020/9/25/natural-language-processing.
- https://www.bigdata-insider.de/was-ist-natural-language-processing-a-590102/.
- https://www.bigdata-insider.de/was-ist-natural-language-processing-a-590102/.
- https://towardsdatascience.com/law-and-word-order-nlp-in-legal-tech-bd14257ebd06.
- https://www.in.tum.de/legaltech/about/matthias-grabmair/.