Large Language Models: Was wirklich hinter den Modellen steckt

ChatGPT, Gemini, Claude, Llama, Mistral. Die Namen wechseln schnell, die Fähigkeiten wachsen, und die Erklärungen dazu schwanken zwischen „versteht Sprache“ und „denkt wie ein Mensch“. Beides ist ungenau. Was hinter Large Language Models tatsächlich steckt, lässt sich ohne Mathematikstudium darstellen.

Was ein Sprachmodell im Kern tut

Ein Large Language Model ist ein statistisches Modell, das auf großen Textmengen gelernt hat, welche Wörter und Sätze wahrscheinlich aufeinander folgen. Klingt trivialer als es ist, denn durch das Training auf Milliarden Dokumenten entstehen nicht nur Grammatik und Vokabular, sondern auch Zusammenhänge, Argumentationsmuster und Sprachstile.

Das Modell weiß nicht, was es schreibt. Es berechnet, was wahrscheinlich als Nächstes passt. Dieser Unterschied zum menschlichen Verstehen ist der Kern für alle typischen Fehler, die solche Modelle machen.

Warum Halluzinationen entstehen

Halluzination bezeichnet Ausgaben, die plausibel klingen, aber falsch sind. Erfundene Namen, falsche Jahreszahlen, Zitate, die niemand gesagt hat. Der Grund liegt in der Natur der Technik: Das Modell optimiert für statistische Wahrscheinlichkeit, nicht für Wahrheit. Ohne verlässliche Information produziert es trotzdem eine glatt klingende Antwort.

In Anwendungen, bei denen Faktentreue zählt, also juristische Texte, medizinische Informationen, technische Dokumentation, braucht man entweder Verifikationsmechanismen oder Zugang zu gesicherten Wissensquellen. Ohne eine dieser Schutzebenen ist ein Modellantwort nur eine Arbeitshypothese.

Retrieval Augmented Generation

Retrieval Augmented Generation, abgekürzt RAG, ist der Ansatz, der Halluzinationen in der Praxis am zuverlässigsten reduziert. Das Modell antwortet nicht aus dem Gedächtnis, sondern zieht zuerst passende Dokumente aus einer Datenbank und formuliert dann auf deren Basis. Dadurch kann es auf reale Belege verweisen.

RAG ist die Grundlage fast aller seriösen Unternehmensanwendungen: Chatbots, die auf interne Wissensdatenbanken zugreifen, semantische Suche über große Dokumentenbestände, Assistenten, die aktuelle Informationen einbeziehen. Wie KI-Anwendungen in der Praxis aussehen können, zeigt der Energiesektor, der früh gelernt hat, mit Lastprognosen und Netzsteuerung umzugehen.

Fine-Tuning und seine Grenzen

Ein vortrainiertes Modell lässt sich für spezifische Aufgaben nachschulen. Man gibt ihm Beispiele für ein gewünschtes Verhalten, und es passt seine Antworten entsprechend an. Fine-Tuning lohnt sich bei sehr spezifischen Tonalitäten, Fachvokabular oder Ausgabeformaten, die sich durch reines Prompting nicht zuverlässig erzeugen lassen.

Es ist allerdings aufwändig und teurer als gutes Prompt-Design. Viele Probleme, die auf den ersten Blick nach Fine-Tuning aussehen, lassen sich mit einer sauberen Systemanweisung und einer Handvoll Beispielen lösen. Erst wenn dieser Weg ausgereizt ist, lohnt sich der nächste Schritt.

Modellgröße ist nicht alles

Größere Modelle sind nicht automatisch besser. Sie sind besser in komplexen Reasoning-Aufgaben und bei langen Kontexten. Für klar definierte, wiederholte Aufgaben sind kleinere Modelle schneller, günstiger und oft ausreichend. Die praktische Regel: Das kleinste Modell, das die Aufgabe zuverlässig erledigt, ist meistens die beste Wahl.

Das wird wichtig, sobald das Volumen steigt. Bei ein paar Anfragen pro Tag ist der Unterschied egal. Bei tausenden Anfragen summieren sich Antwortzeit und Kosten spürbar. Modellauswahl ist damit auch eine Frage der Ökonomie, nicht nur der Qualität.

Offene und geschlossene Modelle

OpenAI, Anthropic und Google betreiben geschlossene Modelle, die nur über eine API erreichbar sind. Anfragen laufen über deren Server, was Datenschutzfragen aufwirft. Open-Source-Modelle wie Llama, Mistral oder Qwen lassen sich auf eigener Hardware oder in europäischen Cloud-Angeboten betreiben. Das gibt Kontrolle über die Daten, kostet aber Aufwand für Betrieb und Wartung.

Für viele Unternehmen ist die Wahl keine Entweder-oder-Entscheidung. Unkritische Aufgaben laufen in der Cloud, datenschutzsensible Prozesse lokal oder in einem europäischen Rechenzentrum. Hybride Setups sind gängige Praxis, nicht Ausnahme.

Was das für praktische Anwendungen bedeutet

Wer produktive KI-Anwendungen bauen will, trifft zuerst drei Entscheidungen: Modell, Wissensanbindung, Governance. Das Modell wird nach Aufgabe und Kostenrahmen ausgewählt. Die Wissensanbindung, meist über RAG, klärt, woher die Fakten kommen. Die Governance klärt, wer verantwortet, prüft und eingreift, wenn das System Fehler macht.

Diese drei Ebenen machen den Unterschied zwischen einem Demoprojekt, das auf der Unternehmensbühne gut aussieht, und einem System, das im Alltag trägt. Beides hat seinen Platz, aber sie sollten nicht verwechselt werden.

Ein realistischer Ausblick

Sprachmodelle werden in den nächsten Jahren leistungsfähiger, günstiger und stärker integriert. Multimodale Fähigkeiten mit Bild, Audio und Video sind bereits Standard. Was sich nicht grundlegend ändern wird, ist die Mechanik: Modelle bleiben Wahrscheinlichkeitsrechner. Wer das versteht, bekommt bessere Ergebnisse, stellt die richtigen Sicherheitsfragen und baut Anwendungen, die halten. Wer es ignoriert, baut Systeme, die in Demos glänzen und im Betrieb Probleme schaffen.

Was Prompting in der Praxis bedeutet

Prompting ist die Kunst, einem Modell klar zu sagen, was es tun soll. Das klingt banal, ist aber in der Qualität der Ergebnisse der Faktor mit der größten Streuung. Ein guter Prompt beschreibt Aufgabe, Kontext, Format und Grenzen. Ein schlechter Prompt stellt eine vage Frage und hofft auf eine gute Antwort.

Strukturen wie Systemanweisungen, wenige gute Beispiele und klare Ausgabeformate helfen deutlich mehr als lange Anweisungsketten. Wer fünf Beispiele zeigt, wie eine saubere Antwort aussieht, bekommt häufig bessere Resultate als mit drei Bildschirmseiten Erklärtext.

In Unternehmen lohnt sich eine interne Sammlung erprobter Prompts für wiederkehrende Aufgaben. Das ist kein Geheimwissen, aber es spart Zeit und hebt die Konsistenz. Ohne diese Sammlung erfindet jeder Nutzer das Rad jeden Tag neu.

Kontextfenster und ihre praktischen Folgen

Sprachmodelle haben ein Kontextfenster, also eine begrenzte Menge an Text, die sie gleichzeitig berücksichtigen können. Die Größen wachsen, mittlerweile sind Hunderte tausend Tokens üblich. Für lange Dokumente oder ganze Wissensbestände ist das vorteilhaft, bringt aber auch Eigenheiten mit sich: Informationen in der Mitte längerer Eingaben werden schlechter verarbeitet als am Anfang oder Ende.

Praktische Konsequenz: Wer lange Dokumente analysieren lässt, sollte wichtige Hinweise an klar exponierten Stellen platzieren, entweder in der Systemanweisung oder am Ende des Prompts. Und er sollte damit rechnen, dass nicht jedes Detail gleichmäßig gewichtet wird.

Sicherheit und Missbrauch

Sprachmodelle können überredet werden. Der Begriff Prompt Injection bezeichnet Angriffe, bei denen manipulierte Eingaben das Modell dazu bringen, Regeln zu umgehen oder Informationen preiszugeben, die es nicht preisgeben sollte. Wer Modelle in Kundenkontakten einsetzt, muss diese Angriffsflächen kennen.

Abwehrstrategien sind vielfältig: klare Systemanweisungen, zweistufige Prüfungen durch ein zweites Modell, Ausgabefilter, die sensible Informationen blockieren. Keine dieser Maßnahmen ist perfekt, aber in Kombination senken sie das Risiko deutlich.

Ein verwandtes Thema ist Data Leakage: sensible Daten, die versehentlich in Prompts landen und damit in Trainingskorpora oder Logs. Vertrauliche Informationen gehören daher nicht unbedacht in Modelle, die ihre Daten für Training weiterverwenden dürfen. Die Nutzungsbedingungen der Anbieter unterscheiden sich hier erheblich.