Large Language Models

Die Entwicklung von Künstlicher Intelligenz (KI) erlangte in den letzten Jahren erneute Dynamik und damit einhergehende große mediale Aufmerksamkeit. Ein zentraler Bestandteil der aktuellen Entwicklung sind Large Language Models (LLMs).
Darunter sind sprachgenerierende KI-Modelle zu verstehen, die auf schriftliche Benutzereingaben jeglicher Art (sog. Prompts) mit detaillierten Textausgaben reagieren können. Die zunehmend intelligent wirkende Sprachgenerierung dieser Modelle wurde der interessierten Öffentlichkeit insbesondere durch die Einführung des als besonders leistungsstark geltenden Chabot-Systems “ChatGPT” des Unternehmens OpenAI im Jahre 2022 eindrucksvoll demonstriert. Die Fähigkeit von LLMs, natursprachliche Texte zu verstehen und zu generieren, hat bereits zu einer Vielzahl von Anwendungen in verschiedensten Bereichen geführt, darunter die automatisierte Texterstellung, die Übersetzung von Texten, die Erstellung von Chatbots und die Verbesserung von Suchmaschinen.
Da insbesondere juristische Tätigkeiten in hohem Maße von der Verarbeitung und Interpretation von natursprachlichen Texten abhängen, verspricht der Einsatz von LLM-Technologie gerade auch für den Rechtsbereich großes Potenzial. Das theoretische Anwendungspotenzial von LLMs im juristischen Bereich ist vielfältig. So könnten sie beispielsweise zukünftig bei der Erstellung von Verträgen, der Analyse von Gerichtsentscheidungen und allgemein bei der Recherche von Rechtsfragen unterstützen. Weitergehend sind auch die vollautomatisierte Beantwortung von Rechtsfragen oder die Erstellung von Schriftsatzentwürfen denkbar. Die Technologie könnte somit bei der Entwicklung von Legal Tech Anwendungen eine Schlüsselrolle einnehmen, um juristische Prozesse insgesamt effizienter zu gestalten, Juristen zu entlasten und den Zugang zum Recht zu verbessern.
Was sind Large Language Models?
Die Funktionsweise moderner LLMs basiert vorwiegend auf der Transformer-Architektur, die bereits 2017 von Google-Entwicklern im mittlerweile berühmten Forschungsbeitrag "Attention Is All You Need" (Fn. 1) eingeführt wurde. Diese Architektur nutzt Mechanismen der Selbst- und Kreuzaufmerksamkeit, um Beziehungen und Abhängigkeiten zwischen Wörtern in einem Text zu erkennen und zu interpretieren. LLMs wie GPT-4, Gemini, LLama und andere werden dabei auf riesigen Textdatenbanken trainiert, um statistische Muster und Zusammenhänge in natürlicher Sprache zu erlernen. Die aus dem Traingsprozess hervorgehenden Modelle können Milliarden von Parametern besitzen, was ihnen ermöglicht, sehr feine Nuancen und komplexe Sprachstrukturen zu erfassen. Neben dem eigentlichen Trainingsprozess der sogenannten Basismodelle ("Foundation Models") stammen viele Innovationen aus den angrenzenden Entwicklungsschritten der Datenbeschaffung, Datenvor- und Aufbereitung, der Architektur- und Trainingsmethodenentwicklung, der technischen und physischen Gestaltung der Trainingsinfrastruktur, dem Finetuning und der Anwendungsmodalität. Der Vorgang des Ausführens eines fertigen LLMs für Benutzereingaben wird als Inferenzphase bezeichnet.
Basismodelle und Datenquellen
Als Datenquelle für das Training der großen Basismodelle dienen extrem große Textkorpora, welche oft aus großen Abzügen des frei verfügbaren Internets (wie etwa Common Crawl, OpenWebText und weiteren kommerziellen Datenbanken), sowie Büchern, Artikel und wissenschaftlichen Texten bestehen, wodurch eine breite linguistische und thematische Diversität sichergestellt wird. Die Trainingsphase eines modernen wettbewerbsfähigen Basismodells gilt als sehr kapitalintensiv und erfordert die Belegung großer Rechenzentren für mehrere Monate, um die riesigen Datenmengen zu verarbeiten und in das Basismodell einfließen lassen zu können. Die Anzahl der Modellparameter ist dabei ein entscheidender Faktor für die Leistungsfähigkeit der Modelle, da sie die Komplexität und Kapazität des Modells bestimmen. Gleichzeitig steigt mit der Anzahl der Parameter auch der Rechenaufwand für das Training und die Inferenz. Durch Innovationen im Trainingsprozess und insbesondere der Vorverarbeitung der Trainingsdaten (z.B. durch die geschickte "Aufbereitung" der Output-Daten größerer Modelle) können allerdings zunehmend auch Modelle mit weniger Parametern entwickelt werden, die dennoch eine hohe Leistungsfähigkeit aufweisen. (siehe etwa Fn. 2)
Finetuning
Nach dem eigentlichen Trainingsprozess erfolgt oft ein nachgelagerter Trainingsprozess (Finetuning) für spezifische Anwendungszwecke, Sicherheitskorrekturen (sog. "Alignment", Fn. 3) oder die Verbesserung der Antwortqualität (etwa in einem Chat-Szenario). Dies kann durch spezialisiertes Training auf task-spezifischen Datensätzen geschehen oder durch Methoden wie Reinforcement Learning with Human Feedback (RLHF), bei dem menschliches Feedback genutzt wird, um Antworten für definierte Kriterien zu optimieren. RLHF spielt auch eine große Rolle als Werkzeug, um LLMs sicherer und in Übereinstimmung mit ethischen Richtlinien zu gestalten. Finetuning trägt oft erheblich zur Verbesserung der allgemeinen Leistungsfähigkeit der Modelle bei und erhöht die Präzision bei der Anwendung in spezifischen Aufgaben. Da Finetuning im Vergleich zum Basistraining deutlich weniger Rechenressourcen erfordert, ist es auch für kleinere Unternehmen, Organisationen und Forschungsgruppen zugänglicher.
Inferenz
Die Inferenzphase ist die Phase, in der die fertig trainierten Modelle ausgeführt werden. Sie kommen zum Beispiel in einem Chat-Szenario zum Einsatz um auf Benutzereingaben zu antworten, oder in der Textgenerierung, um etwa automatisch Texte zu vervollständigen. Die Inferenzphase ist weniger rechenintensiv, da die Modelle bereits trainiert und finetuned sind und nur noch die Eingaben verarbeiten müssen. Dennoch gilt die Inferenzphase als eigene technische Herausforderung, in der sich Unternehmen und Forschungseinrichtungen mit der Skalierung, Beschleunigung und Optimierung der Inferenzprozesse beschäftigen (Fn. 4). Die Inferenzphase kann sowohl auf lokalen Geräten als auch in der Cloud durchgeführt werden, je nach den Anforderungen der Anwendung und der verfügbaren Ressourcen. Der Prozess der Formulierung gezielter Eingaben aus Nutzersicht, um spezifische Antworten zu erhalten, wird als Prompt Engineering bezeichnet. Präzise Prompts steuern die Modellantwort, was die Anwendungsflexibilität erhöht und die Antwortqualität teilweise erheblich verbessert. Prompting-Strategien spielen eine wichtige Rolle, um die Genauigkeit der Antworten zu optimieren und eine kontrollierte Ausgabe zu erreichen.
Sicherheit, Bias und Fehleranfälligkeit
LLMs haben potenzielle Sicherheitsrisiken, Fehleranfälligkeiten und Bias-Probleme. Bias entsteht oft durch Ungleichgewichte in den Trainingsdaten, die aus den vielfältigen, aber ungefilterten Datenquellen stammen. Dies kann insbesondere bei sensiblen Theme zu systematischen Verzerrungen führen. Zusätzlich besteht das Risiko von fehlerhaften Antworten (sogenannten "Halluzinationen"). Letztere sind oft schwer als solche zu enttarnen und sind insbesondere bei im Trainingsdatensatz thematisch unterrepräsentieren Fachgebieten anzutreffen. Um Fehleranfälligkeit und Sicherheitsrisiken zu minimieren, werden die Modelle regelmäßig evaluiert und (etwa durch RLHF) angepasst. Die Beschäftigung mit Sicherheitsfragen und die Bemühung um Reduktion von Bias und Fehlern hat sich ebenfalls zu einem eigenständigen Forschungsgebiet entwickelt.
Potenzial für juristische Anwendungen
Die Fähigkeit der aktuellen großen Modelle, in Rechtsfragen fundierte Antworten zu geben, scheint bisher limitiert. Die Qualität der Antworten auf juristische Fragen ist oft geprägt von Falschzitaten und Halluzinationen. Dies könnte potenziell auf unzureichende Trainingsdaten zurückgeführt werden, welche mutmaßlich nicht ausreichend juristische Korpora und Fachwissen, gerade aus dem deutschen Rechtswesen enthalten könnten. Geradie die, für die juristische Arbeitsweise zentrale Arbeit mit genauen Fundstellen und Normzitaten scheint für derzeitige Modelle noch unerreichbar. (siehe auch Fn. 5) Auch grundlegendere Fragen, inwiefern die komplexen juristischen Abwägungs-, Interpretations- und Subsumtionsprozesse überhaupt durch LLMs abgebildet werden können, bleiben ungeklärt.
Dennoch gibt es bereits erste experimentelle Entwicklungen von LLMs für das Rechtswesen, welche auf die spezialisierte Anwendung für juristische Aufgaben abzielen. Diese spezialisierten Modelle, wie etwa Beck Chat oder Harvey AI, basieren regelmäßig auf den großen amerikanischen Basismodellen und sind mit juristischen Korpora via Fintetuning angepasst und mit eigenen Datenquellen ausgestattet.
Beispiele für LLMs im juristischen Bereich
Harvey AI
Harvey AI "Assistant" ist ein in den Vereinigten Staaten entwickeltes Sprachmodell, dass in Zusammenarbeit mit OpenAI (in Aufbau auf deren Basismodellen) entwickelt wurde. Das Modell wurde umfangreich auf US-amerikanische juristische Korpora trainiert und ist in zahlreichen Anwendungsmodalitäten speziell für juristische Workflows angepasst. Harvey AI kann auf US-amerikanische Rechtsfragen antworten, Rechtsdokumente analysieren und Entwürfe für Schriftsätze erstellen. Daneben beinhaltet das Software-Paket von Harvey AI auch Funktionen zur KI-unterstützten Dokumentensuche und -verwaltung. (Fn. 6)
Beck Chat
Der Beck Chat ist ein in Deutschland entwickeltes juristisches Chatbot-System, dass auf den Modell-APIs von OpenAI basiert (siehe https://rsw.beck.de/beck-online-service/bedienhilfe/faq-beck-chat). Insbesondere die Anbindung des Systems an die Online-Datenbank des Beck-Verlags ermöglicht es dem Chatbot, auf eine Vielzahl von juristischen Quellen zuzugreifen und seine Antworten mit konkreten Fundstellen zu versehen. Das Chatsystem befindet sich in einer andaudernden Betaphase und ist derzeit nur für begrenzte Rechtsbereiche sowie eine ausgewählte Nutzergruppe zugänglich. (Fn. 7)
Fazit
Die Entwicklung von Large Language Models (LLMs) hat das Potenzial, das Rechtswesen grundlegend zu verändern. Durch die Fähigkeit von LLMs, natürliche Sprache zu verstehen und zu generieren, könnten sie potenziell bei einer Vielzahl von juristischen Aufgaben unterstützen und entscheidende Beiträge zur Digitalisierung des Rechtswesens leisten. Die Verwendung von LLMs im juristischen Bereich birgt jedoch auch Risiken und große technische, rechtliche und ethische Herausforderungen, darunter Datenlücken, Datenschutzprobleme und Korrektheitsprobleme.
Fußnoten
Fachliteratur
- Vaswani, A., et al. "Attention is all you need." Advances in Neural Information Processing Systems (2017). https://arxiv.org/abs/1706.03762
- Jiang, Albert Q., et al. "Mistral 7B." arXiv preprint arXiv:2310.06825 (2023). https://arxiv.org/abs/2310.06825
Blogbeiträge und Medienberichte
- Leike, J., et al. "Our approach to alignment research" OpenAI Blog (2022). https://openai.com/blog/our-approach-to-alignment-research/
- Wolba, B. "Mark Heaps: How Groq Built The Fastest Chip for LLM Inference" Future Of Computing Blog (2024). https://www.future-of-computing.com/mark-heaps-how-groq-built-the-fastest-chip-for-llm-inference/
- Zander, H. "ChatGPT: Wie künstliche Intelligenz den Anwaltsberuf revolutioniert" Anwaltsblatt Report (2023). https://anwaltsblatt.anwaltverein.de/de/news/chatgpt-ki-anwaltsberuf
- "Introducing the Next Version of Assistant" Harvey AI Blog (2024). https://www.harvey.ai/blog/introducing-the-next-version-of-assistant
- Schäffer, J. "Die Datenbank Beck-online hat jetzt eine Chatfunktion!" JURios Blog (2024). https://jurios.de/2024/05/07/die-datenbank-beck-online-hat-jetzt-eine-chatfunktion/