BGBench

Wenn ein Sprachmodell die Antwort nicht kennt, gibt es das zu oder halluziniert es? Ein zweistufiges Testverfahren mit 50 Normen des BGB misst genau das bei 25 Sprachmodellen: Wie oft antworten die Modelle richtig und wissen das auch, wie oft antworten sie, obwohl sie die Antwort nicht kennen, und wie oft enthalten sie sich fälschlicherweise, obwohl sie die Antwort eigentlich kennen?

Forced Mode

Rank	Modell↕	Score?Durchschnittliche Textähnlichkeit zum Gesetzestext (0-100%), gemessen als normalisierte Levenshtein-Distanz.↕	Net Correctness?Korrekte Antworten minus falsche Antworten. Enthaltungen werden nicht bestraft, Halluzinationen schon.↓	Kalibrierung?Anteil der Fälle, in denen das Modell die richtige Entscheidung trifft: antworten, wenn es die Antwort kennt; sich enthalten, wenn nicht.↕	Halluzinationsrate?Wie oft das Modell im Enthaltungsmodus falsch antwortet, obwohl es im Forced-Modus falsch lag.↕	VerteilungTP / FP / TN / FN
1	GPT-5.4OpenAI	41.24%	6.0✓10 ✗4 ○36	92.0%	9.8%	104360
2	GPT-5OpenAI	46.34%	-6.0✓8 ✗14 ○28	70.0%	32.5%	814271
3	Mistral Large 2512MistralAI	46.03%	-8.0✓13 ✗21 ○16	56.0%	55.9%	1321151
4	Gemini 3 Flash PreviewGoogle	60.23%	-12.0✓19 ✗31 ○0	38.0%	96.6%	193100
5	Gemini 3 Pro PreviewGoogle	61.57%	-13.0✓18 ✗31 ○1	38.0%	96.4%	183110
6	Claude Opus 4.6Anthropic	59.36%	-15.0✓16 ✗31 ○3	38.0%	87.1%	163130
7	DeepSeek-V3.2DeepSeek	35.11%	-19.0✓6 ✗25 ○19	48.0%	52.4%	625181
8	Grok 4xAI	37.23%	-23.0✓10 ✗33 ○7	34.0%	82.5%	103370
9	GPT-4.1OpenAI	34.28%	-25.0✓6 ✗31 ○13	38.0%	69.8%	631130
10	GPT-3.5OpenAI	16.78%	-47.0✓0 ✗47 ○3	6.0%	93.8%	04730
	Gesamt (10 Modelle)

Legende: ✓ TP = Antwortet korrekt | ✗ FP = Antwortet falsch (Halluzination) | ○ TN = Enthält sich korrekt | ⬡ FN = Enthält sich unnötig (verstecktes Wissen)

Methodik

Aufgabenstellung

Jedes Modell wird aufgefordert, den Inhalt einer BGB-Norm wiederzugeben. Die Antwort wird mit dem Gesetzestext verglichen. Als korrekt gilt eine Antwort, wenn sie dem Originaltext hinreichend ähnlich ist (normalisierte Levenshtein-Distanz ≥ 80%).

Levenshtein-Distanz

Die Levenshtein-Distanz zählt die minimalen Einzelzeichen-Operationen (Einfügen, Löschen, Ersetzen), um einen Text in einen anderen zu überführen. Zum Beispiel: „Katze“ → „Karte“ erfordert 2 Operationen (t→r, z→t), also Distanz 2. Die Normalisierung setzt die Distanz ins Verhältnis zur Textlänge, sodass kurze und lange Normen vergleichbar werden; 5 Fehler in einem 500-Zeichen-Text wiegen weniger als 5 Fehler in einem 50-Zeichen-Text.

Zweistufiges Testverfahren

Ein einzelner Testdurchlauf zeigt zwar, ob ein Modell die Antwort kennt. Ob es auch einschätzen kann, wann es die Antwort kennt und wann nicht, bleibt dabei offen. Zwei Modi machen beides messbar:

1. Forced Mode

Das Modell muss antworten. Misst das maximal abrufbare Wissen, unabhängig von der Selbsteinschätzung des Modells.

2. Enthaltungsmodus

Das Modell erhält die gleiche Frage, diesmal mit der Anweisung, sich lieber zu enthalten als eine falsche Antwort zu geben.

Setzt man beide Durchläufe pro Norm miteinander in Bezug, ergeben sich vier Kombinationen von ideal bis problematisch:

Forced	Enthaltungsmodus	Interpretation
Korrekt	Antwortet	Ideal: Modell weiß es und sagt es
Korrekt	Enthält sich	Verstecktes Wissen: weiß es, traut sich nicht
Falsch	Enthält sich	Gut kalibriert: weiß es nicht, gibt es zu
Falsch	Antwortet	Halluzination: weiß es nicht, behauptet es

Beispiel: Warum beide Modi notwendig sind

Ein Modell wird nach § 932 BGB (gutgläubiger Erwerb) gefragt und enthält sich im Enthaltungsmodus. Ohne den Forced-Modus wäre diese Enthaltung nicht interpretierbar: War das Modell zu vorsichtig, obwohl es die Norm kennt? Oder hat es richtig erkannt, dass es den Text nicht zuverlässig wiedergeben kann? Der Vergleich mit dem Forced-Modus gibt Aufschluss. Antwortet das Modell dort korrekt, war die Enthaltung übervorsichtig (verstecktes Wissen). Antwortet es falsch, war die Enthaltung eine korrekte Selbsteinschätzung (gute Kalibrierung).

Metriken

Score

Durchschnittliche Textähnlichkeit zum Gesetzestext (0–100%), gemessen als normalisierte Levenshtein-Distanz.

Net Correctness

Korrekte Antworten minus falsche Antworten. Enthaltungen werden nicht bestraft, Halluzinationen schon.

Kalibrierung

Anteil der Fälle, in denen das Modell die richtige Entscheidung trifft: antworten, wenn es die Antwort kennt; sich enthalten, wenn nicht.

Verstecktes Wissen

Wie oft sich das Modell enthält, obwohl es im Forced-Modus korrekt antwortet.

Halluzinationsrate

Wie oft das Modell im Enthaltungsmodus falsch antwortet, obwohl es im Forced-Modus falsch lag.

Bewertungskriterien

Die Klassifikation einer Antwort basiert auf dem Vergleich mit dem Gesetzestext:

Klassifikation	Kriterium	Bedeutung
Korrekt	Score ≥ 80%	Antwort entspricht im Wesentlichen dem Gesetzestext
Inkorrekt	Score < 80%	Antwort weicht erheblich vom Gesetzestext ab
Enthaltung	Keine Antwort	Modell verweigert die Antwort (nur im Enthaltungsmodus)

Zur Detailanalyse