← Zurück zum KI-Monitor
LLM BenchmarkAktualisiert: 11. Juni 2026

Welche KI ist die beste? Alle Modelle im Vergleich.

17 aktuelle KI-Modelle, verglichen nach 5 anerkannten Benchmarks und realen Kosten. Sortierbar, filterbar — kein Marketing, nur Daten.

Von Chatbot Arena Elo (menschliche Bewertung) über MMLU-Pro (Allgemeinwissen) bis SWE-bench (echtes Software-Engineering) — plus Preise pro Million Tokens für einen ehrlichen Kosten-Vergleich.

17

Modelle

5

Benchmarks

11

Anbieter

7

Quellen

LLM Ranking — Alle Modelle

Klicke auf eine Spaltenüberschrift zum Sortieren. Filtere nach Use Case, Anbieter oder Open-Source-Status.

Use Case

Anbieter

17 von 17 Modellen

Claude Fable 5

Anthropic

1,510

Elo

MMLU-Pro

91.5

SWE

95.0

AIME

GPQA

In: $10Out: $50
1M🖼️

Gemini 3.1 Pro

Google

1,487

Elo

MMLU-Pro

SWE

80.6

AIME

GPQA

94.3

In: $2Out: $12
1M🖼️

Claude Opus 4.8

Anthropic

1,477

Elo

MMLU-Pro

SWE

88.6

AIME

GPQA

93.6

In: $5Out: $25
1M🖼️

GPT-5.2

OpenAI

1,475

Elo

MMLU-Pro

SWE

80.0

AIME

100.0

GPQA

92.4

In: $1.8Out: $14
256K🖼️

GLM-5.1

Z.AI

1,475

Elo

MMLU-Pro

SWE

AIME

95.3

GPQA

86.2

In: $0.95Out: $3.1
200KOpen

GPT-5.5

OpenAI

1,474

Elo

MMLU-Pro

89.6

SWE

88.7

AIME

GPQA

93.6

In: $5Out: $30
1M🖼️

Gemini 3 Flash

Google

1,473

Elo

MMLU-Pro

SWE

78.0

AIME

GPQA

90.4

In: $0.50Out: $3
1M🖼️

DeepSeek V4 Pro

DeepSeek

1,465

Elo

MMLU-Pro

87.5

SWE

80.6

AIME

GPQA

90.1

In: $0.44Out: $0.87
1MOpen

GPT-5.4 mini

OpenAI

1,461

Elo

MMLU-Pro

87.0

SWE

AIME

GPQA

In: $0.75Out: $4.5
🖼️

Claude Sonnet 4.6

Anthropic

1,460

Elo

MMLU-Pro

87.3

SWE

79.6

AIME

GPQA

74.1

In: $3Out: $15
1M🖼️

Kimi K2.5

Moonshot AI

1,460

Elo

MMLU-Pro

87.1

SWE

76.8

AIME

96.1

GPQA

87.6

In: $0.60Out: $3
262K🖼️Open

Qwen 3.5

Alibaba

1,453

Elo

MMLU-Pro

88.0

SWE

78.0

AIME

91.3

GPQA

88.4

In: $0.54Out: $3.4
262K🖼️Open

Grok 4.3

xAI

1,443

Elo

MMLU-Pro

SWE

AIME

GPQA

90.1

In: $1.3Out: $2.5
1M🖼️

Mistral Large 3

Mistral

1,416

Elo

MMLU-Pro

73.1

SWE

AIME

GPQA

In: $0.50Out: $1.5
256K🖼️Open

MiniMax M2.5

MiniMax

1,415

Elo

MMLU-Pro

SWE

80.2

AIME

GPQA

In: $0.15Out: $1.2
205KOpen

Claude Haiku 4.5

Anthropic

1,378

Elo

MMLU-Pro

80.0

SWE

73.3

AIME

GPQA

In: $1Out: $5
200K🖼️

Llama 5

Meta

Elo

MMLU-Pro

86.4

SWE

47.3

AIME

GPQA

78.2

In: $0.50Out:
5MOpen
Elo = Chatbot Arena RankingMMLU-Pro = Allgemeinwissen & ReasoningSWE = SWE-bench Verified (Bugfixing)AIME = Wettbewerbs-MathematikGPQA = Expertenwissen$/1M = USD pro 1 Million Tokens– = nicht berichtet

Was messen diese Benchmarks?

Arena Elo

↑ Höher = besser

Crowdsourced Blind-Voting: Echte Nutzer vergleichen zwei anonyme Modelle und wählen das bessere. Gilt als realistischster Qualitätsindikator, weil er menschliche Präferenz direkt misst. Die Skala wurde Anfang 2026 rekalibriert — Werte sind nicht mit älteren Snapshots vergleichbar.

Quelle: Arena (ehem. LMArena / LMSYS)

MMLU-Pro

↑ Höher = besser

Nachfolger des klassischen MMLU: 12.000 Fragen aus 14 Wissensgebieten mit zehn statt vier Antwortoptionen und deutlich höherem Reasoning-Anteil. Das klassische MMLU gilt seit 2025 als gesättigt und wird kaum noch berichtet.

Quelle: TIGER-Lab, University of Waterloo

SWE-bench

↑ Höher = besser

Reale GitHub-Issues aus Open-Source-Projekten. Das Modell muss echte Bugs fixen — deutlich schwerer als synthetische Code-Aufgaben. Misst praxisnahe Software-Engineering-Fähigkeit.

Quelle: Princeton NLP / OpenAI (Verified-Subset)

AIME

↑ Höher = besser

15 Aufgaben des American Invitational Mathematics Examination — der Qualifikationswettbewerb zur US-Mathematik-Olympiade. Hat den MATH-Benchmark abgelöst. Top-Modelle erreichen inzwischen nahezu volle Punktzahl; viele Anbieter berichten den Wert daher nicht mehr.

Quelle: MAA, berichtet von Anbietern/Leaderboards

GPQA

↑ Höher = besser

Fragen auf Doktoranden-Niveau in Physik, Chemie und Biologie. Fachexperten erreichen nur ~65 % — Frontier-Modelle liegen inzwischen darüber. Misst tiefes wissenschaftliches Verständnis.

Quelle: Rein et al., NYU

Kosten-Effizienz: Qualität pro Dollar

Der reine Benchmark-Score sagt wenig über den Praxiswert, wenn ein Modell 10× mehr kostet. Deshalb lohnt sich der Blick auf das Verhältnis von Qualität zu Kosten.

Tipp: Sortiere die Tabelle oben nach „$/1M Out“ (Kosten pro Million Output-Tokens) und vergleiche mit dem Arena-Elo-Score. Modelle wie DeepSeek V4 Pro, MiniMax M2.5 oder Gemini 3 Flash bieten starke Leistung zu einem Bruchteil der Kosten der Flaggschiff-Modelle.

Für die meisten Business-Anwendungen ist nicht das beste Modell die richtige Wahl — sondern das effizienteste, das die eigene Qualitätsschwelle erreicht.

#1

DeepSeek V4 Pro

DeepSeek

Elo / $ Output1,684
Arena Elo1,465
Output-Preis$0.87/1M
#2

MiniMax M2.5

MiniMax

Elo / $ Output1,179
Arena Elo1,415
Output-Preis$1.2/1M
#3

Mistral Large 3

Mistral

Elo / $ Output944
Arena Elo1,416
Output-Preis$1.5/1M

Methodik & Quellen

Anerkannte Benchmarks

Chatbot Arena (Blind-Voting), MMLU-Pro, SWE-bench Verified, AIME, GPQA Diamond — standardisierte Tests aus der Forschung. Wo unabhängige Messungen noch fehlen, übernehmen wir offizielle Anbieter-Angaben; fehlende Werte bleiben leer statt geschätzt.

Aktuelle Preise

Offizielle API-Preise der Anbieter und OpenRouter. Preise können sich ändern — Stand ist das angezeigte Aktualisierungsdatum.

Redaktionelle Bewertung

Use-Case-Ratings (1–5 Sterne) basieren auf eigener Praxiserfahrung und Community-Feedback. Benchmark-Scores sind objektiv, Ratings subjektiv — beides ist gekennzeichnet.

← Zurück zum KI-Monitor

Letzte Aktualisierung: 11. Juni 2026 · Daten fehlen oder veraltet? Melden →