Welche KI ist die beste? Alle Modelle im Vergleich.
17 aktuelle KI-Modelle, verglichen nach 5 anerkannten Benchmarks und realen Kosten. Sortierbar, filterbar — kein Marketing, nur Daten.
Von Chatbot Arena Elo (menschliche Bewertung) über MMLU-Pro (Allgemeinwissen) bis SWE-bench (echtes Software-Engineering) — plus Preise pro Million Tokens für einen ehrlichen Kosten-Vergleich.
17
Modelle
5
Benchmarks
11
Anbieter
7
Quellen
LLM Ranking — Alle Modelle
Klicke auf eine Spaltenüberschrift zum Sortieren. Filtere nach Use Case, Anbieter oder Open-Source-Status.
Use Case
Anbieter
17 von 17 Modellen
| Claude Fable 5 | Anthropic | 1,510 | 91.5 | 95.0 | – | – | $10 | $50 | 1M |
| Gemini 3.1 Pro | 1,487 | – | 80.6 | – | 94.3 | $2 | $12 | 1M | |
| Claude Opus 4.8 | Anthropic | 1,477 | – | 88.6 | – | 93.6 | $5 | $25 | 1M |
| GPT-5.2 | OpenAI | 1,475 | – | 80.0 | 100.0 | 92.4 | $1.8 | $14 | 256K |
| GLM-5.1Open | Z.AI | 1,475 | – | – | 95.3 | 86.2 | $0.95 | $3.1 | 200K |
| GPT-5.5 | OpenAI | 1,474 | 89.6 | 88.7 | – | 93.6 | $5 | $30 | 1M |
| Gemini 3 Flash | 1,473 | – | 78.0 | – | 90.4 | $0.50 | $3 | 1M | |
| DeepSeek V4 ProOpen | DeepSeek | 1,465 | 87.5 | 80.6 | – | 90.1 | $0.44 | $0.87 | 1M |
| GPT-5.4 mini | OpenAI | 1,461 | 87.0 | – | – | – | $0.75 | $4.5 | – |
| Claude Sonnet 4.6 | Anthropic | 1,460 | 87.3 | 79.6 | – | 74.1 | $3 | $15 | 1M |
| Kimi K2.5Open | Moonshot AI | 1,460 | 87.1 | 76.8 | 96.1 | 87.6 | $0.60 | $3 | 262K |
| Qwen 3.5Open | Alibaba | 1,453 | 88.0 | 78.0 | 91.3 | 88.4 | $0.54 | $3.4 | 262K |
| Grok 4.3 | xAI | 1,443 | – | – | – | 90.1 | $1.3 | $2.5 | 1M |
| Mistral Large 3Open | Mistral | 1,416 | 73.1 | – | – | – | $0.50 | $1.5 | 256K |
| MiniMax M2.5Open | MiniMax | 1,415 | – | 80.2 | – | – | $0.15 | $1.2 | 205K |
| Claude Haiku 4.5 | Anthropic | 1,378 | 80.0 | 73.3 | – | – | $1 | $5 | 200K |
| Llama 5Open | Meta | – | 86.4 | 47.3 | – | 78.2 | $0.50 | – | 5M |
Claude Fable 5
Anthropic
1,510
Elo
MMLU-Pro
91.5
SWE
95.0
AIME
–
GPQA
–
Gemini 3.1 Pro
1,487
Elo
MMLU-Pro
–
SWE
80.6
AIME
–
GPQA
94.3
Claude Opus 4.8
Anthropic
1,477
Elo
MMLU-Pro
–
SWE
88.6
AIME
–
GPQA
93.6
GPT-5.2
OpenAI
1,475
Elo
MMLU-Pro
–
SWE
80.0
AIME
100.0
GPQA
92.4
GLM-5.1
Z.AI
1,475
Elo
MMLU-Pro
–
SWE
–
AIME
95.3
GPQA
86.2
GPT-5.5
OpenAI
1,474
Elo
MMLU-Pro
89.6
SWE
88.7
AIME
–
GPQA
93.6
Gemini 3 Flash
1,473
Elo
MMLU-Pro
–
SWE
78.0
AIME
–
GPQA
90.4
DeepSeek V4 Pro
DeepSeek
1,465
Elo
MMLU-Pro
87.5
SWE
80.6
AIME
–
GPQA
90.1
GPT-5.4 mini
OpenAI
1,461
Elo
MMLU-Pro
87.0
SWE
–
AIME
–
GPQA
–
Claude Sonnet 4.6
Anthropic
1,460
Elo
MMLU-Pro
87.3
SWE
79.6
AIME
–
GPQA
74.1
Kimi K2.5
Moonshot AI
1,460
Elo
MMLU-Pro
87.1
SWE
76.8
AIME
96.1
GPQA
87.6
Qwen 3.5
Alibaba
1,453
Elo
MMLU-Pro
88.0
SWE
78.0
AIME
91.3
GPQA
88.4
Grok 4.3
xAI
1,443
Elo
MMLU-Pro
–
SWE
–
AIME
–
GPQA
90.1
Mistral Large 3
Mistral
1,416
Elo
MMLU-Pro
73.1
SWE
–
AIME
–
GPQA
–
MiniMax M2.5
MiniMax
1,415
Elo
MMLU-Pro
–
SWE
80.2
AIME
–
GPQA
–
Claude Haiku 4.5
Anthropic
1,378
Elo
MMLU-Pro
80.0
SWE
73.3
AIME
–
GPQA
–
Llama 5
Meta
Elo
MMLU-Pro
86.4
SWE
47.3
AIME
–
GPQA
78.2
Was messen diese Benchmarks?
Arena Elo
↑ Höher = besserCrowdsourced Blind-Voting: Echte Nutzer vergleichen zwei anonyme Modelle und wählen das bessere. Gilt als realistischster Qualitätsindikator, weil er menschliche Präferenz direkt misst. Die Skala wurde Anfang 2026 rekalibriert — Werte sind nicht mit älteren Snapshots vergleichbar.
Quelle: Arena (ehem. LMArena / LMSYS) →MMLU-Pro
↑ Höher = besserNachfolger des klassischen MMLU: 12.000 Fragen aus 14 Wissensgebieten mit zehn statt vier Antwortoptionen und deutlich höherem Reasoning-Anteil. Das klassische MMLU gilt seit 2025 als gesättigt und wird kaum noch berichtet.
Quelle: TIGER-Lab, University of Waterloo →SWE-bench
↑ Höher = besserReale GitHub-Issues aus Open-Source-Projekten. Das Modell muss echte Bugs fixen — deutlich schwerer als synthetische Code-Aufgaben. Misst praxisnahe Software-Engineering-Fähigkeit.
Quelle: Princeton NLP / OpenAI (Verified-Subset) →AIME
↑ Höher = besser15 Aufgaben des American Invitational Mathematics Examination — der Qualifikationswettbewerb zur US-Mathematik-Olympiade. Hat den MATH-Benchmark abgelöst. Top-Modelle erreichen inzwischen nahezu volle Punktzahl; viele Anbieter berichten den Wert daher nicht mehr.
Quelle: MAA, berichtet von Anbietern/Leaderboards →GPQA
↑ Höher = besserFragen auf Doktoranden-Niveau in Physik, Chemie und Biologie. Fachexperten erreichen nur ~65 % — Frontier-Modelle liegen inzwischen darüber. Misst tiefes wissenschaftliches Verständnis.
Quelle: Rein et al., NYU →Kosten-Effizienz: Qualität pro Dollar
Der reine Benchmark-Score sagt wenig über den Praxiswert, wenn ein Modell 10× mehr kostet. Deshalb lohnt sich der Blick auf das Verhältnis von Qualität zu Kosten.
Tipp: Sortiere die Tabelle oben nach „$/1M Out“ (Kosten pro Million Output-Tokens) und vergleiche mit dem Arena-Elo-Score. Modelle wie DeepSeek V4 Pro, MiniMax M2.5 oder Gemini 3 Flash bieten starke Leistung zu einem Bruchteil der Kosten der Flaggschiff-Modelle.
Für die meisten Business-Anwendungen ist nicht das beste Modell die richtige Wahl — sondern das effizienteste, das die eigene Qualitätsschwelle erreicht.
DeepSeek V4 Pro
DeepSeek
MiniMax M2.5
MiniMax
Mistral Large 3
Mistral
Methodik & Quellen
Anerkannte Benchmarks
Chatbot Arena (Blind-Voting), MMLU-Pro, SWE-bench Verified, AIME, GPQA Diamond — standardisierte Tests aus der Forschung. Wo unabhängige Messungen noch fehlen, übernehmen wir offizielle Anbieter-Angaben; fehlende Werte bleiben leer statt geschätzt.
Aktuelle Preise
Offizielle API-Preise der Anbieter und OpenRouter. Preise können sich ändern — Stand ist das angezeigte Aktualisierungsdatum.
Redaktionelle Bewertung
Use-Case-Ratings (1–5 Sterne) basieren auf eigener Praxiserfahrung und Community-Feedback. Benchmark-Scores sind objektiv, Ratings subjektiv — beides ist gekennzeichnet.
Letzte Aktualisierung: 11. Juni 2026 · Daten fehlen oder veraltet? Melden →