Welche KI ist die beste? Alle Modelle im Vergleich.
15 aktuelle KI-Modelle, verglichen nach 7 anerkannten Benchmarks und realen Kosten. Sortierbar, filterbar — kein Marketing, nur Daten.
Von Chatbot Arena Elo (menschliche Bewertung) über MMLU (Allgemeinwissen) bis SWE-bench (echtes Software-Engineering) — plus Preise pro Million Tokens für einen ehrlichen Kosten-Vergleich.
15
Modelle
7
Benchmarks
7
Anbieter
6
Quellen
LLM Ranking — Alle Modelle
Klicke auf eine Spaltenüberschrift zum Sortieren. Filtere nach Use Case, Anbieter oder Open-Source-Status.
Use Case
Anbieter
15 von 15 Modellen
| Modell ↕ | Anbieter ↕ | Elo ↓ | MMLU ↕ | Code ↕ | SWE ↕ | Math ↕ | GPQA ↕ | Halluz. ↕ | $/1M In ↕ | $/1M Out ↕ | Kontext ↕ |
|---|---|---|---|---|---|---|---|---|---|---|---|
| o3 | OpenAI | 1,415 | 92.0 | 92.8 | 69.1 | 96.7 | 82.9 | 11.0 | $2 | $8 | 200K |
| Claude 4 Opus | Anthropic | 1,410 | 91.1 | 93.0 | 72.0 | 83.2 | 74.9 | 12.5 | $15 | $75 | 200K |
| Gemini 2.5 Pro | 1,402 | 90.8 | 92.1 | 63.8 | 90.2 | 78.0 | 13.8 | $1.3 | $10 | 1.0M | |
| o4-mini | OpenAI | 1,390 | 89.5 | 93.5 | 68.1 | 93.4 | 81.4 | 13.2 | $1.1 | $4.4 | 200K |
| Claude 4 Sonnet | Anthropic | 1,380 | 90.4 | 93.7 | 72.7 | 81.4 | 70.2 | 14.2 | $3 | $15 | 200K |
| Grok 3 | xAI | 1,380 | 90.6 | 91.3 | – | 93.9 | 78.8 | – | $3 | $15 | 131K |
| GPT-4.1 | OpenAI | 1,370 | 90.2 | 92.0 | 54.6 | 78.8 | 66.3 | 10.8 | $2 | $8 | 1.0M |
| Gemini 2.5 Flash | 1,368 | 89.1 | 90.6 | 49.2 | 85.8 | 70.5 | 16.5 | $0.15 | $0.60 | 1.0M | |
| DeepSeek R1Open | DeepSeek | 1,358 | 90.8 | 92.4 | 49.2 | 97.3 | 71.5 | – | $0.70 | $2.5 | 128K |
| GPT-4o | OpenAI | 1,340 | 88.7 | 90.2 | 38.4 | 76.6 | 53.6 | 16.1 | $2.5 | $10 | 128K |
| Llama 4 MaverickOpen | Meta | 1,340 | 88.4 | 89.5 | – | 78.9 | 69.8 | – | $0.15 | $0.60 | 1.0M |
| DeepSeek V3Open | DeepSeek | 1,318 | 88.5 | 89.6 | 42.0 | 75.9 | 59.1 | – | $0.32 | $0.89 | 128K |
| GPT-4.1 mini | OpenAI | 1,300 | 87.5 | 90.8 | 28.8 | 74.2 | 53.2 | 15.6 | $0.40 | $1.6 | 1.0M |
| Mistral Large 2 | Mistral | 1,250 | 84.0 | 84.8 | – | 69.1 | 52.3 | – | $2 | $6 | 128K |
| Claude 3.5 Haiku | Anthropic | 1,230 | 84.0 | 88.1 | 40.6 | 69.4 | 51.1 | 22.0 | $0.80 | $4 | 200K |
o3
OpenAI
1,415
Elo
MMLU
92.0
Code
92.8
SWE
69.1
Math
96.7
GPQA
82.9
Halluz.
11.0
Claude 4 Opus
Anthropic
1,410
Elo
MMLU
91.1
Code
93.0
SWE
72.0
Math
83.2
GPQA
74.9
Halluz.
12.5
Gemini 2.5 Pro
1,402
Elo
MMLU
90.8
Code
92.1
SWE
63.8
Math
90.2
GPQA
78.0
Halluz.
13.8
o4-mini
OpenAI
1,390
Elo
MMLU
89.5
Code
93.5
SWE
68.1
Math
93.4
GPQA
81.4
Halluz.
13.2
Claude 4 Sonnet
Anthropic
1,380
Elo
MMLU
90.4
Code
93.7
SWE
72.7
Math
81.4
GPQA
70.2
Halluz.
14.2
Grok 3
xAI
1,380
Elo
MMLU
90.6
Code
91.3
SWE
–
Math
93.9
GPQA
78.8
Halluz.
–
GPT-4.1
OpenAI
1,370
Elo
MMLU
90.2
Code
92.0
SWE
54.6
Math
78.8
GPQA
66.3
Halluz.
10.8
Gemini 2.5 Flash
1,368
Elo
MMLU
89.1
Code
90.6
SWE
49.2
Math
85.8
GPQA
70.5
Halluz.
16.5
DeepSeek R1
DeepSeek
1,358
Elo
MMLU
90.8
Code
92.4
SWE
49.2
Math
97.3
GPQA
71.5
Halluz.
–
GPT-4o
OpenAI
1,340
Elo
MMLU
88.7
Code
90.2
SWE
38.4
Math
76.6
GPQA
53.6
Halluz.
16.1
Llama 4 Maverick
Meta
1,340
Elo
MMLU
88.4
Code
89.5
SWE
–
Math
78.9
GPQA
69.8
Halluz.
–
DeepSeek V3
DeepSeek
1,318
Elo
MMLU
88.5
Code
89.6
SWE
42.0
Math
75.9
GPQA
59.1
Halluz.
–
GPT-4.1 mini
OpenAI
1,300
Elo
MMLU
87.5
Code
90.8
SWE
28.8
Math
74.2
GPQA
53.2
Halluz.
15.6
Mistral Large 2
Mistral
1,250
Elo
MMLU
84.0
Code
84.8
SWE
–
Math
69.1
GPQA
52.3
Halluz.
–
Claude 3.5 Haiku
Anthropic
1,230
Elo
MMLU
84.0
Code
88.1
SWE
40.6
Math
69.4
GPQA
51.1
Halluz.
22.0
Was messen diese Benchmarks?
Arena Elo
↑ Höher = besserCrowdsourced Blind-Voting: Echte Nutzer vergleichen zwei anonyme Modelle und wählen das bessere. Gilt als realistischster Qualitätsindikator, weil er menschliche Präferenz direkt misst.
Quelle: LMSYS / UC Berkeley →MMLU
↑ Höher = besser57 Wissensgebiete von Mathematik über Geschichte bis Medizin. Misst breites Allgemeinwissen und akademisches Verständnis. Standardmetrik für Sprachverständnis.
Quelle: Hendrycks et al., UC Berkeley →HumanEval
↑ Höher = besser164 Programmieraufgaben in Python. Das Modell muss funktionierenden Code generieren, der Unit-Tests besteht. Standardbenchmark für Code-Generierung.
Quelle: OpenAI →SWE-bench
↑ Höher = besserReale GitHub-Issues aus Open-Source-Projekten. Das Modell muss echte Bugs fixen — deutlich schwerer als synthetische Code-Aufgaben. Misst praxisnahe Software-Engineering-Fähigkeit.
Quelle: Princeton NLP →MATH
↑ Höher = besser12.500 Aufgaben aus Mathematik-Wettbewerben (AMC, AIME-Level). Testet algebraisches Denken, Geometrie und Kombinatorik auf anspruchsvollem Niveau.
Quelle: Hendrycks et al. →GPQA
↑ Höher = besserFragen auf Doktoranden-Niveau in Physik, Chemie und Biologie. Selbst Fachexperten erreichen nur ~65 %. Misst tiefes wissenschaftliches Verständnis.
Quelle: Rein et al., NYU →SimpleQA
↓ Niedriger = besser1.000 einfache Faktenfragen mit eindeutiger Antwort. Misst wie häufig ein Modell halluziniert — also falsche Informationen als Fakten präsentiert. Niedriger = weniger Halluzinationen.
Quelle: OpenAI →Kosten-Effizienz: Qualität pro Dollar
Der reine Benchmark-Score sagt wenig über den Praxiswert, wenn ein Modell 10× mehr kostet. Deshalb lohnt sich der Blick auf das Verhältnis von Qualität zu Kosten.
Tipp: Sortiere die Tabelle oben nach „$/1M Out" (Kosten pro Million Output-Tokens) und vergleiche mit dem Arena-Elo-Score. Modelle wie Gemini 2.5 Flash oder GPT-4.1 mini bieten starke Leistung zu einem Bruchteil der Kosten der Flaggschiff-Modelle.
Für die meisten Business-Anwendungen ist nicht das beste Modell die richtige Wahl — sondern das effizienteste, das die eigene Qualitätsschwelle erreicht.
Gemini 2.5 Flash
Llama 4 Maverick
Meta
DeepSeek V3
DeepSeek
Methodik & Quellen
Unabhängige Benchmarks
Chatbot Arena (Blind-Voting), MMLU, HumanEval, SWE-bench, MATH, GPQA — standardisierte Tests aus der Forschung. Keine selbst-reporteten Werte der Anbieter.
Aktuelle Preise
Offizielle API-Preise der Anbieter und OpenRouter. Preise können sich ändern — Stand ist das angezeigte Aktualisierungsdatum.
Redaktionelle Bewertung
Use-Case-Ratings (1–5 Sterne) basieren auf eigener Praxiserfahrung und Community-Feedback. Benchmark-Scores sind objektiv, Ratings subjektiv — beides ist gekennzeichnet.
Letzte Aktualisierung: 16. April 2026 · Daten fehlen oder veraltet? Melden →