LLM BenchmarkAktualisiert: 16. April 2026

Welche KI ist die beste? Alle Modelle im Vergleich.

15 aktuelle KI-Modelle, verglichen nach 7 anerkannten Benchmarks und realen Kosten. Sortierbar, filterbar — kein Marketing, nur Daten.

Von Chatbot Arena Elo (menschliche Bewertung) über MMLU (Allgemeinwissen) bis SWE-bench (echtes Software-Engineering) — plus Preise pro Million Tokens für einen ehrlichen Kosten-Vergleich.

Modelle

Benchmarks

Anbieter

Quellen

LLM Ranking — Alle Modelle

Klicke auf eine Spaltenüberschrift zum Sortieren. Filtere nach Use Case, Anbieter oder Open-Source-Status.

Use Case

Anbieter

Nur Open Source

15 von 15 Modellen

Modell ↕	Anbieter ↕	Elo ↓	MMLU ↕	Code ↕	SWE ↕	Math ↕	GPQA ↕	Halluz. ↕	$/1M In ↕	$/1M Out ↕	Kontext ↕
o3	OpenAI	1,415	92.0	92.8	69.1	96.7	82.9	11.0	$2	$8	200K
Claude 4 Opus	Anthropic	1,410	91.1	93.0	72.0	83.2	74.9	12.5	$15	$75	200K
Gemini 2.5 Pro	Google	1,402	90.8	92.1	63.8	90.2	78.0	13.8	$1.3	$10	1.0M
o4-mini	OpenAI	1,390	89.5	93.5	68.1	93.4	81.4	13.2	$1.1	$4.4	200K
Claude 4 Sonnet	Anthropic	1,380	90.4	93.7	72.7	81.4	70.2	14.2	$3	$15	200K
Grok 3	xAI	1,380	90.6	91.3	–	93.9	78.8	–	$3	$15	131K
GPT-4.1	OpenAI	1,370	90.2	92.0	54.6	78.8	66.3	10.8	$2	$8	1.0M
Gemini 2.5 Flash	Google	1,368	89.1	90.6	49.2	85.8	70.5	16.5	$0.15	$0.60	1.0M
DeepSeek R1Open	DeepSeek	1,358	90.8	92.4	49.2	97.3	71.5	–	$0.70	$2.5	128K
GPT-4o	OpenAI	1,340	88.7	90.2	38.4	76.6	53.6	16.1	$2.5	$10	128K
Llama 4 MaverickOpen	Meta	1,340	88.4	89.5	–	78.9	69.8	–	$0.15	$0.60	1.0M
DeepSeek V3Open	DeepSeek	1,318	88.5	89.6	42.0	75.9	59.1	–	$0.32	$0.89	128K
GPT-4.1 mini	OpenAI	1,300	87.5	90.8	28.8	74.2	53.2	15.6	$0.40	$1.6	1.0M
Mistral Large 2	Mistral	1,250	84.0	84.8	–	69.1	52.3	–	$2	$6	128K
Claude 3.5 Haiku	Anthropic	1,230	84.0	88.1	40.6	69.4	51.1	22.0	$0.80	$4	200K

OpenAI

1,415

Elo

MMLU

92.0

Code

92.8

SWE

69.1

Math

96.7

GPQA

82.9

Halluz.

11.0

In: $2Out: $8

200K🖼️

Claude 4 Opus

Anthropic

1,410

Elo

MMLU

91.1

Code

93.0

SWE

72.0

Math

83.2

GPQA

74.9

Halluz.

12.5

In: $15Out: $75

200K🖼️

Gemini 2.5 Pro

Google

1,402

Elo

MMLU

90.8

Code

92.1

SWE

63.8

Math

90.2

GPQA

78.0

Halluz.

13.8

In: $1.3Out: $10

1.0M🖼️

o4-mini

OpenAI

1,390

Elo

MMLU

89.5

Code

93.5

SWE

68.1

Math

93.4

GPQA

81.4

Halluz.

13.2

In: $1.1Out: $4.4

200K🖼️

Claude 4 Sonnet

Anthropic

1,380

Elo

MMLU

90.4

Code

93.7

SWE

72.7

Math

81.4

GPQA

70.2

Halluz.

14.2

In: $3Out: $15

200K🖼️

Grok 3

xAI

1,380

Elo

MMLU

90.6

Code

91.3

SWE

–

Math

93.9

GPQA

78.8

Halluz.

–

In: $3Out: $15

131K

GPT-4.1

OpenAI

1,370

Elo

MMLU

90.2

Code

92.0

SWE

54.6

Math

78.8

GPQA

66.3

Halluz.

10.8

In: $2Out: $8

1.0M🖼️

Gemini 2.5 Flash

Google

1,368

Elo

MMLU

89.1

Code

90.6

SWE

49.2

Math

85.8

GPQA

70.5

Halluz.

16.5

In: $0.15Out: $0.60

1.0M🖼️

DeepSeek R1

DeepSeek

1,358

Elo

MMLU

90.8

Code

92.4

SWE

49.2

Math

97.3

GPQA

71.5

Halluz.

–

In: $0.70Out: $2.5

128KOpen

GPT-4o

OpenAI

1,340

Elo

MMLU

88.7

Code

90.2

SWE

38.4

Math

76.6

GPQA

53.6

Halluz.

16.1

In: $2.5Out: $10

128K🖼️

Llama 4 Maverick

Was messen diese Benchmarks?

Arena Elo

↑ Höher = besser

Crowdsourced Blind-Voting: Echte Nutzer vergleichen zwei anonyme Modelle und wählen das bessere. Gilt als realistischster Qualitätsindikator, weil er menschliche Präferenz direkt misst.

Quelle: LMSYS / UC Berkeley →

MMLU

↑ Höher = besser

57 Wissensgebiete von Mathematik über Geschichte bis Medizin. Misst breites Allgemeinwissen und akademisches Verständnis. Standardmetrik für Sprachverständnis.

Quelle: Hendrycks et al., UC Berkeley →

HumanEval

↑ Höher = besser

164 Programmieraufgaben in Python. Das Modell muss funktionierenden Code generieren, der Unit-Tests besteht. Standardbenchmark für Code-Generierung.

Quelle: OpenAI →

SWE-bench

↑ Höher = besser

Reale GitHub-Issues aus Open-Source-Projekten. Das Modell muss echte Bugs fixen — deutlich schwerer als synthetische Code-Aufgaben. Misst praxisnahe Software-Engineering-Fähigkeit.

Quelle: Princeton NLP →

MATH

↑ Höher = besser

12.500 Aufgaben aus Mathematik-Wettbewerben (AMC, AIME-Level). Testet algebraisches Denken, Geometrie und Kombinatorik auf anspruchsvollem Niveau.

Quelle: Hendrycks et al. →

GPQA

↑ Höher = besser

Fragen auf Doktoranden-Niveau in Physik, Chemie und Biologie. Selbst Fachexperten erreichen nur ~65 %. Misst tiefes wissenschaftliches Verständnis.

Quelle: Rein et al., NYU →

SimpleQA

↓ Niedriger = besser

1.000 einfache Faktenfragen mit eindeutiger Antwort. Misst wie häufig ein Modell halluziniert — also falsche Informationen als Fakten präsentiert. Niedriger = weniger Halluzinationen.

Quelle: OpenAI →

Kosten-Effizienz: Qualität pro Dollar

Der reine Benchmark-Score sagt wenig über den Praxiswert, wenn ein Modell 10× mehr kostet. Deshalb lohnt sich der Blick auf das Verhältnis von Qualität zu Kosten.

Tipp: Sortiere die Tabelle oben nach „$/1M Out" (Kosten pro Million Output-Tokens) und vergleiche mit dem Arena-Elo-Score. Modelle wie Gemini 2.5 Flash oder GPT-4.1 mini bieten starke Leistung zu einem Bruchteil der Kosten der Flaggschiff-Modelle.

Für die meisten Business-Anwendungen ist nicht das beste Modell die richtige Wahl — sondern das effizienteste, das die eigene Qualitätsschwelle erreicht.

Gemini 2.5 Flash

Google

Elo / $ Output2,280

Arena Elo1,368

Output-Preis$0.6/1M

Llama 4 Maverick

Methodik & Quellen

Unabhängige Benchmarks

Chatbot Arena (Blind-Voting), MMLU, HumanEval, SWE-bench, MATH, GPQA — standardisierte Tests aus der Forschung. Keine selbst-reporteten Werte der Anbieter.

Aktuelle Preise

Offizielle API-Preise der Anbieter und OpenRouter. Preise können sich ändern — Stand ist das angezeigte Aktualisierungsdatum.

Redaktionelle Bewertung

Use-Case-Ratings (1–5 Sterne) basieren auf eigener Praxiserfahrung und Community-Feedback. Benchmark-Scores sind objektiv, Ratings subjektiv — beides ist gekennzeichnet.

Alle Quellen

Chatbot Arena / LMSYS →Artificial Analysis →OpenRouter →Anthropic Model Card →OpenAI Model Spec →Google AI Models →

← Zurück zum KI-Monitor

Letzte Aktualisierung: 16. April 2026 · Daten fehlen oder veraltet? Melden →