← Zurück zum KI-Monitor
LLM BenchmarkAktualisiert: 16. April 2026

Welche KI ist die beste? Alle Modelle im Vergleich.

15 aktuelle KI-Modelle, verglichen nach 7 anerkannten Benchmarks und realen Kosten. Sortierbar, filterbar — kein Marketing, nur Daten.

Von Chatbot Arena Elo (menschliche Bewertung) über MMLU (Allgemeinwissen) bis SWE-bench (echtes Software-Engineering) — plus Preise pro Million Tokens für einen ehrlichen Kosten-Vergleich.

15

Modelle

7

Benchmarks

7

Anbieter

6

Quellen

LLM Ranking — Alle Modelle

Klicke auf eine Spaltenüberschrift zum Sortieren. Filtere nach Use Case, Anbieter oder Open-Source-Status.

Use Case

Anbieter

15 von 15 Modellen

o3

OpenAI

1,415

Elo

MMLU

92.0

Code

92.8

SWE

69.1

Math

96.7

GPQA

82.9

Halluz.

11.0

In: $2Out: $8
200K🖼️

Claude 4 Opus

Anthropic

1,410

Elo

MMLU

91.1

Code

93.0

SWE

72.0

Math

83.2

GPQA

74.9

Halluz.

12.5

In: $15Out: $75
200K🖼️

Gemini 2.5 Pro

Google

1,402

Elo

MMLU

90.8

Code

92.1

SWE

63.8

Math

90.2

GPQA

78.0

Halluz.

13.8

In: $1.3Out: $10
1.0M🖼️

o4-mini

OpenAI

1,390

Elo

MMLU

89.5

Code

93.5

SWE

68.1

Math

93.4

GPQA

81.4

Halluz.

13.2

In: $1.1Out: $4.4
200K🖼️

Claude 4 Sonnet

Anthropic

1,380

Elo

MMLU

90.4

Code

93.7

SWE

72.7

Math

81.4

GPQA

70.2

Halluz.

14.2

In: $3Out: $15
200K🖼️

Grok 3

xAI

1,380

Elo

MMLU

90.6

Code

91.3

SWE

Math

93.9

GPQA

78.8

Halluz.

In: $3Out: $15
131K

GPT-4.1

OpenAI

1,370

Elo

MMLU

90.2

Code

92.0

SWE

54.6

Math

78.8

GPQA

66.3

Halluz.

10.8

In: $2Out: $8
1.0M🖼️

Gemini 2.5 Flash

Google

1,368

Elo

MMLU

89.1

Code

90.6

SWE

49.2

Math

85.8

GPQA

70.5

Halluz.

16.5

In: $0.15Out: $0.60
1.0M🖼️

DeepSeek R1

DeepSeek

1,358

Elo

MMLU

90.8

Code

92.4

SWE

49.2

Math

97.3

GPQA

71.5

Halluz.

In: $0.70Out: $2.5
128KOpen

GPT-4o

OpenAI

1,340

Elo

MMLU

88.7

Code

90.2

SWE

38.4

Math

76.6

GPQA

53.6

Halluz.

16.1

In: $2.5Out: $10
128K🖼️

Llama 4 Maverick

Meta

1,340

Elo

MMLU

88.4

Code

89.5

SWE

Math

78.9

GPQA

69.8

Halluz.

In: $0.15Out: $0.60
1.0M🖼️Open

DeepSeek V3

DeepSeek

1,318

Elo

MMLU

88.5

Code

89.6

SWE

42.0

Math

75.9

GPQA

59.1

Halluz.

In: $0.32Out: $0.89
128KOpen

GPT-4.1 mini

OpenAI

1,300

Elo

MMLU

87.5

Code

90.8

SWE

28.8

Math

74.2

GPQA

53.2

Halluz.

15.6

In: $0.40Out: $1.6
1.0M🖼️

Mistral Large 2

Mistral

1,250

Elo

MMLU

84.0

Code

84.8

SWE

Math

69.1

GPQA

52.3

Halluz.

In: $2Out: $6
128K

Claude 3.5 Haiku

Anthropic

1,230

Elo

MMLU

84.0

Code

88.1

SWE

40.6

Math

69.4

GPQA

51.1

Halluz.

22.0

In: $0.80Out: $4
200K🖼️
Elo = Chatbot Arena RankingMMLU = AllgemeinwissenCode = HumanEvalSWE = SWE-bench (Bugfixing)Math = Wettbewerbs-MathematikGPQA = ExpertenwissenHalluz. = Halluzinationsrate (↓ besser)$/1M = USD pro 1 Million Tokens

Was messen diese Benchmarks?

Arena Elo

↑ Höher = besser

Crowdsourced Blind-Voting: Echte Nutzer vergleichen zwei anonyme Modelle und wählen das bessere. Gilt als realistischster Qualitätsindikator, weil er menschliche Präferenz direkt misst.

Quelle: LMSYS / UC Berkeley

MMLU

↑ Höher = besser

57 Wissensgebiete von Mathematik über Geschichte bis Medizin. Misst breites Allgemeinwissen und akademisches Verständnis. Standardmetrik für Sprachverständnis.

Quelle: Hendrycks et al., UC Berkeley

HumanEval

↑ Höher = besser

164 Programmieraufgaben in Python. Das Modell muss funktionierenden Code generieren, der Unit-Tests besteht. Standardbenchmark für Code-Generierung.

Quelle: OpenAI

SWE-bench

↑ Höher = besser

Reale GitHub-Issues aus Open-Source-Projekten. Das Modell muss echte Bugs fixen — deutlich schwerer als synthetische Code-Aufgaben. Misst praxisnahe Software-Engineering-Fähigkeit.

Quelle: Princeton NLP

MATH

↑ Höher = besser

12.500 Aufgaben aus Mathematik-Wettbewerben (AMC, AIME-Level). Testet algebraisches Denken, Geometrie und Kombinatorik auf anspruchsvollem Niveau.

Quelle: Hendrycks et al.

GPQA

↑ Höher = besser

Fragen auf Doktoranden-Niveau in Physik, Chemie und Biologie. Selbst Fachexperten erreichen nur ~65 %. Misst tiefes wissenschaftliches Verständnis.

Quelle: Rein et al., NYU

SimpleQA

↓ Niedriger = besser

1.000 einfache Faktenfragen mit eindeutiger Antwort. Misst wie häufig ein Modell halluziniert — also falsche Informationen als Fakten präsentiert. Niedriger = weniger Halluzinationen.

Quelle: OpenAI

Kosten-Effizienz: Qualität pro Dollar

Der reine Benchmark-Score sagt wenig über den Praxiswert, wenn ein Modell 10× mehr kostet. Deshalb lohnt sich der Blick auf das Verhältnis von Qualität zu Kosten.

Tipp: Sortiere die Tabelle oben nach „$/1M Out" (Kosten pro Million Output-Tokens) und vergleiche mit dem Arena-Elo-Score. Modelle wie Gemini 2.5 Flash oder GPT-4.1 mini bieten starke Leistung zu einem Bruchteil der Kosten der Flaggschiff-Modelle.

Für die meisten Business-Anwendungen ist nicht das beste Modell die richtige Wahl — sondern das effizienteste, das die eigene Qualitätsschwelle erreicht.

#1

Gemini 2.5 Flash

Google

Elo / $ Output2,280
Arena Elo1,368
Output-Preis$0.6/1M
#2

Llama 4 Maverick

Meta

Elo / $ Output2,233
Arena Elo1,340
Output-Preis$0.6/1M
#3

DeepSeek V3

DeepSeek

Elo / $ Output1,481
Arena Elo1,318
Output-Preis$0.89/1M

Methodik & Quellen

Unabhängige Benchmarks

Chatbot Arena (Blind-Voting), MMLU, HumanEval, SWE-bench, MATH, GPQA — standardisierte Tests aus der Forschung. Keine selbst-reporteten Werte der Anbieter.

Aktuelle Preise

Offizielle API-Preise der Anbieter und OpenRouter. Preise können sich ändern — Stand ist das angezeigte Aktualisierungsdatum.

Redaktionelle Bewertung

Use-Case-Ratings (1–5 Sterne) basieren auf eigener Praxiserfahrung und Community-Feedback. Benchmark-Scores sind objektiv, Ratings subjektiv — beides ist gekennzeichnet.

← Zurück zum KI-Monitor

Letzte Aktualisierung: 16. April 2026 · Daten fehlen oder veraltet? Melden →