Work in Progress

BGBench

Wenn ein Sprachmodell die Antwort nicht kennt, gibt es das zu oder halluziniert es? Ein zweistufiges Testverfahren mit 50 Normen des BGB misst genau das bei 25 Sprachmodellen: Wie oft antworten die Modelle richtig und wissen das auch, wie oft antworten sie, obwohl sie die Antwort nicht kennen, und wie oft enthalten sie sich fälschlicherweise, obwohl sie die Antwort eigentlich kennen?

Forced Mode
Rank
Modell
Score?
Net Correctness?
Kalibrierung?
Halluzinationsrate?
VerteilungTP / FP / TN / FN
1
GPT-5.4OpenAI
41.24%
6.010436
92.0%9.8%
104360
2
GPT-5OpenAI
46.34%
-6.081428
70.0%32.5%
814271
3
Mistral Large 2512MistralAI
46.03%
-8.0132116
56.0%55.9%
1321151
4
Gemini 3 Flash PreviewGoogle
60.23%
-12.019310
38.0%96.6%
193100
5
Gemini 3 Pro PreviewGoogle
61.57%
-13.018311
38.0%96.4%
183110
6
Claude Opus 4.6Anthropic
59.36%
-15.016313
38.0%87.1%
163130
7
DeepSeek-V3.2DeepSeek
35.11%
-19.062519
48.0%52.4%
625181
8
Grok 4xAI
37.23%
-23.010337
34.0%82.5%
103370
9
GPT-4.1OpenAI
34.28%
-25.063113
38.0%69.8%
631130
10
GPT-3.5OpenAI
16.78%
-47.00473
6.0%93.8%
04730
Gesamt (10 Modelle)

Methodik

Aufgabenstellung

Jedes Modell wird aufgefordert, den Inhalt einer BGB-Norm wiederzugeben. Die Antwort wird mit dem Gesetzestext verglichen. Als korrekt gilt eine Antwort, wenn sie dem Originaltext hinreichend ähnlich ist (normalisierte Levenshtein-Distanz ≥ 80%).

Levenshtein-Distanz

Die Levenshtein-Distanz zählt die minimalen Einzelzeichen-Operationen (Einfügen, Löschen, Ersetzen), um einen Text in einen anderen zu überführen. Zum Beispiel: „Katze“ → „Karte“ erfordert 2 Operationen (t→r, z→t), also Distanz 2. Die Normalisierung setzt die Distanz ins Verhältnis zur Textlänge, sodass kurze und lange Normen vergleichbar werden; 5 Fehler in einem 500-Zeichen-Text wiegen weniger als 5 Fehler in einem 50-Zeichen-Text.

Zweistufiges Testverfahren

Ein einzelner Testdurchlauf zeigt zwar, ob ein Modell die Antwort kennt. Ob es auch einschätzen kann, wann es die Antwort kennt und wann nicht, bleibt dabei offen. Zwei Modi machen beides messbar:

1. Forced Mode

Das Modell muss antworten. Misst das maximal abrufbare Wissen, unabhängig von der Selbsteinschätzung des Modells.

2. Enthaltungsmodus

Das Modell erhält die gleiche Frage, diesmal mit der Anweisung, sich lieber zu enthalten als eine falsche Antwort zu geben.

Setzt man beide Durchläufe pro Norm miteinander in Bezug, ergeben sich vier Kombinationen von ideal bis problematisch:

ForcedEnthaltungsmodusInterpretation
KorrektAntwortetIdeal: Modell weiß es und sagt es
KorrektEnthält sichVerstecktes Wissen: weiß es, traut sich nicht
FalschEnthält sichGut kalibriert: weiß es nicht, gibt es zu
FalschAntwortetHalluzination: weiß es nicht, behauptet es
Beispiel: Warum beide Modi notwendig sind

Ein Modell wird nach § 932 BGB (gutgläubiger Erwerb) gefragt und enthält sich im Enthaltungsmodus. Ohne den Forced-Modus wäre diese Enthaltung nicht interpretierbar: War das Modell zu vorsichtig, obwohl es die Norm kennt? Oder hat es richtig erkannt, dass es den Text nicht zuverlässig wiedergeben kann? Der Vergleich mit dem Forced-Modus gibt Aufschluss. Antwortet das Modell dort korrekt, war die Enthaltung übervorsichtig (verstecktes Wissen). Antwortet es falsch, war die Enthaltung eine korrekte Selbsteinschätzung (gute Kalibrierung).

Metriken

Score

Durchschnittliche Textähnlichkeit zum Gesetzestext (0–100%), gemessen als normalisierte Levenshtein-Distanz.

Net Correctness

Korrekte Antworten minus falsche Antworten. Enthaltungen werden nicht bestraft, Halluzinationen schon.

Kalibrierung

Anteil der Fälle, in denen das Modell die richtige Entscheidung trifft: antworten, wenn es die Antwort kennt; sich enthalten, wenn nicht.

Verstecktes Wissen

Wie oft sich das Modell enthält, obwohl es im Forced-Modus korrekt antwortet.

Halluzinationsrate

Wie oft das Modell im Enthaltungsmodus falsch antwortet, obwohl es im Forced-Modus falsch lag.

Bewertungskriterien

Die Klassifikation einer Antwort basiert auf dem Vergleich mit dem Gesetzestext:

KlassifikationKriteriumBedeutung
KorrektScore ≥ 80%Antwort entspricht im Wesentlichen dem Gesetzestext
InkorrektScore < 80%Antwort weicht erheblich vom Gesetzestext ab
EnthaltungKeine AntwortModell verweigert die Antwort (nur im Enthaltungsmodus)