Ein “Large Language Model” (LLM) ist ein generatives großes Sprachmodell. Es ist ein fortschrittliches KI-System, das auf der Verarbeitung und Generierung von Sprache spezialisiert ist. Solche Modelle werden durch das Training mit riesigen Mengen von Textdaten mit oft hunderten Milliarden Parametern trainiert.. Es ermöglicht ihnen, die Muster der Sprache zu erkennen und zu verstehen. So können Texte in natürlicher Sprache generiert werden. Fragen können beantwortet, Diskussionen geführt, Texte übersetzt und bei vielen anderen sprachbasierten Anwendungen assistieren.
LLMs basieren auf neuronalen Netzen mit einer Transformer-Architektur. Sie verwenden Deep-Learning Algorithmen. Durch ihre Fähigkeit, Kontext zu berücksichtigen und auf umfangreichem vorherigen Wissen aufzubauen, können solche Modelle auch für Aufgabengebiete herangezogen werden, für die sie nicht trainiert wurden.
Diese Modelle können Computerprogramme erstellen, Bilder erstellen oder Musik komponieren. Bevor Large Language Models die gewünschten Ergebnisse generieren können, müssen sie trainiert werden. Hierfür werden diese mit riesigen Textmengen gefüttert. Das Lernen während des Trainings findet unüberwacht (unsupervised learning) statt. Das Wissen und die Fähigkeiten des LLM sind in den Milliarden während des Trainings eingestellten Parametern des Sprachmodells gespeichert. Je mehr Parameter, desto komplexere Muster im Text lassen sich erkennen und desto mehr Informationen lassen sich speichern. Dem allgemeinen Training mit großen Textkmengen schließt sich in der Regel ein Finetuning an.
Währende des Trainings und des Einsatzes von LLMs verbrauchen diese Unmengen an Ressourcen (z.B. Rechenzeit, Energie).