Vergleich aktueller LLMs: Unterschiede & Ansätze
Der Hype um Artificial Intelligence scheint nicht abzuflauen. Laut einem Bericht von Market Research Future wird der Markt für große Sprachmodelle (LLMs) in Nordamerika bis 2030 voraussichtlich 105,5 Mrd US-Dollar erreichen. Dieser Beitrag bietet einen Überblick über einige spannende LLMs:
Aktuell gibt es nicht das eine beste Modell.
Die Modelle unterscheiden sich bei Geschwindkeit, Inputarten (Text, Bild, Ton), Kosten und liefern je nach Anwendungsfall unterschiedlich gute Antworten (ein detaillierter Vergleich findet sich hier).
Ein weiterer Unterschied ist das sogenannte Kontextfenster – es handelt sich um die größtmögliche Menge an eingegebenem Input, bei dem das Modell den Kontext im Ganzen analysieren und berücksichtigen kann, und wird in Tokens gemessen (1 Mio Tokens entspricht grob: 30 Stunden eines Podcasts bei ~150 Wörter pro Minute, 1.000 Seiten eines Buches bei ~500 Wörter pro Seite).
Einige Modelle sind proprietär und veröffentlichen keine Informationen zu Trainingsdaten und Funktionsweise, andere sind Open-Source. Open-Source bedeutet, dass das gesamte Modell einsehbar ist, was die Flexibilität gibt, es je nach den spezifischen Sicherheitspräferenzen oder Anpassungsbedürfnissen frei in einer Cloud zu nutzen und bereitzustellen. Die Offenheit dieser Modelle ermöglicht auch eine größere Kontrolle über die Leistung, Feinabstimmung und Integration des Modells in bestehende Arbeitsabläufe.
Diese Rangliste (24.2.2025, LLM-Stats.com) soll einen Überblick geben, die Leistung der Modelle verändert sich laufend.
Programmieren (HumanEval Benchmark)
- Claude 3.5 Sonnet (93.7)
- Qwen2.5-Coder 32B Instruct (92.7)
- GPTo1-mini (92.4)
Schlussfolgerungen (MMLU Pro Benchmark)
- DeepSeek-R1 (84.0)
- Claude 3.5 Sonnet (77.6)
- Gemini 2.0 Flash (76.4)
Wissen (GPQA Benchmark)
- GPT o3 (87.7)
- Grok-3 (85.0)
- Grok-3 Mini (84.0)
Dieser Überblick ist eine Momentaufnahme, da die Modelle laufend weiterentwickelt werden:
GPT (USA): OpenAIs neueste Generative Pre-trained Transformer (GPT)-Modelle (ChatGPT-4o und ChatGPT-4o mini) haben die Geschwindigkeit der Verarbeitung beschleunigt und bieten verbesserte Antworten. Es arbeitet mit mutmaßlich mehr als 175 Mrd Parameter und bietet ein Kontextfenster von 128.000 Tokens ist es effizient bei der Verarbeitung und Generierung großer Datenmengen. Das Modell ist proprietär, es werden nicht alle Informationen zu Trainingsdaten und Parameter veröffentlicht und für den vollen Funktionsumfang ist eine kommerzielle Lizenz oder Abo erforderlich.
DeepSeek (China): Das neueste R1-Modell soll um ein vielfaches Ressourcen- und kostenschonender sein, als andere Modelle mit vergleichbaren Fähigkeiten. Das Modell soll etwa 30-mal kosteneffizienter und 5-mal schneller als OpenAI-o1 sein. Das Modell ist proprietär. Während chinesische Lokalregierungen in Shenzhen, Suzhou, Nanjing, Beijing und Hohhot DeepSeek bereits in deren Sozial- und Regierungsservices integrieren, ist die DeepSeek-App in Italien und Südkorea blockiert. Laut MLex‚ Analyse sind chinesische Firmen stark mit der chinesischen Regierung verflochten. MLex berichtete weiters, wie Südkoreas Datenschutzbehörde feststellen konnte, dass DeepSeek User-Daten auch an Server von ByteDance (TikTok) gesendet werden, und wie potenziell der Datenverkehr verschleiert wird.
Alibabas Qwen 2.5-Max (China) ist für große Textmengen optimiert und bietet schnelle, genaue Antworten bei hoher Effizienz. Die kleinere Größe des Modells ermöglicht die Bereitstellung auf Geräten mit begrenzten Rechenressourcen. Das Modell rangiert von 0,5 bis 72 Mrd Parameter mit einem Kontextfenster von bis zu 128.000 Tokens. Alibaba hat angekündigt in den nächsten 3 Jahren fast 50 Mrd Euro in AI und Cloud-Computing zu investieren. Das Modell ist proprietär.
EXAONE 3.0 ist ein zweisprachiges LLM mit 7,8 Mrd Parametern, das von LG AI Research (Südkorea) entwickelt wurde. Laut LG wurde das Modell verbessert, um kosteneffizient zu bleiben und gleichzeitig hohe Leistung zu gewährleisten. LG AI Research hat die instruction-tuned Version mit 7,8 Mrd Parametern für nicht-kommerzielle Forschungszwecke als Open-Source veröffentlicht.
Metas (formals Facebook, USA) neuestes LlaMA 3.3-Modell (Dezember 2024) kann sowohl Text als auch Bild für eine eingehende Analyse und Antwortgenerierung verarbeiten. LlaMA 3.3 verbesserte frühere Modelle mit einem längeren Kontextfenster von bis zu 128.000 Tokens. LlaMA 3 ist Open-Source.
Anthropics (USA) Claude 3.5 Sonnet-Modell, ist bekannt für seine kontextuelle Verständnisfähigkeit und ist besonders stark bei menschlicher Interaktionen und Codierung. Das Modell bietet ein beeindruckendes Kontextfenster von 200.000 Tokens. Das Modell ist proprietär.
Mistrals (Frankreich) neuestes Modell Mistral Small 3 ist Open-Source (Apache 2.0-Lizenz). Dieses 24-Mrd-Parameter-Modell kann mit kostengünstiger Hardware betrieben werden und ist für Aufgaben ausgelegt, wo schnelle Antworten nötig sind (virtuelle Assistenten, Echtzeit-Verarbeitung, etc) – es ist zB ca 3 mal schneller als Llama 3.3 70B.
Googles (USA) Gemini ist ein proprietäres Modell, das besonders große Kontextfenster beitet. Das neueste Modell – Gemini 2.0 Flash – bietet erhebliche Verbesserungen in Geschwindigkeit, Argumentation und multimodalen Verarbeitungskapazitäten. Google bietet auch das Open-Source-Modell Gemma 2 in den Varianten 2 Mrd, 9 Mr., und 27 Mrd Parametern mit einem Kontextfenster von 8.200 Tokens.
Coheres (Kanada) Command R und Command R+ (104 Mrd Parameter, 128.000 Token Kontextfenster), bieten APIs, die speziell für Retrieval Augmented Generation (RAG) optimiert sind. Das Modell ist Open-Source für den privaten Gebrauch, für den kommerziellen Gebrauch ist eine Lizenz nötig.
xAIs (USA) wurde von Elon Musk gegründet und bietet das proprietäre Grok-3 Modell, das vor allem bei wissensbasierten Benchmarks gut abschneidet.