BGBench
Wenn ein Sprachmodell die Antwort nicht kennt, gibt es das zu oder halluziniert es? Ein zweistufiges Testverfahren mit 50 Normen des BGB misst genau das bei 25 Sprachmodellen: Wie oft antworten die Modelle richtig und wissen das auch, wie oft antworten sie, obwohl sie die Antwort nicht kennen, und wie oft enthalten sie sich fälschlicherweise, obwohl sie die Antwort eigentlich kennen?
| Rank | Modell↕ | Score?Durchschnittliche Textähnlichkeit zum Gesetzestext (0-100%), gemessen als normalisierte Levenshtein-Distanz.↕ | Net Correctness?Korrekte Antworten minus falsche Antworten. Enthaltungen werden nicht bestraft, Halluzinationen schon.↓ | Kalibrierung?Anteil der Fälle, in denen das Modell die richtige Entscheidung trifft: antworten, wenn es die Antwort kennt; sich enthalten, wenn nicht.↕ | Halluzinationsrate?Wie oft das Modell im Enthaltungsmodus falsch antwortet, obwohl es im Forced-Modus falsch lag.↕ | VerteilungTP / FP / TN / FN |
|---|---|---|---|---|---|---|
| 1 | GPT-5.4OpenAI | 41.24% | 6.0✓10 ✗4 ○36 | 92.0% | 9.8% | 104360 |
| 2 | GPT-5OpenAI | 46.34% | -6.0✓8 ✗14 ○28 | 70.0% | 32.5% | 814271 |
| 3 | Mistral Large 2512MistralAI | 46.03% | -8.0✓13 ✗21 ○16 | 56.0% | 55.9% | 1321151 |
| 4 | Gemini 3 Flash PreviewGoogle | 60.23% | -12.0✓19 ✗31 ○0 | 38.0% | 96.6% | 193100 |
| 5 | Gemini 3 Pro PreviewGoogle | 61.57% | -13.0✓18 ✗31 ○1 | 38.0% | 96.4% | 183110 |
| 6 | Claude Opus 4.6Anthropic | 59.36% | -15.0✓16 ✗31 ○3 | 38.0% | 87.1% | 163130 |
| 7 | DeepSeek-V3.2DeepSeek | 35.11% | -19.0✓6 ✗25 ○19 | 48.0% | 52.4% | 625181 |
| 8 | Grok 4xAI | 37.23% | -23.0✓10 ✗33 ○7 | 34.0% | 82.5% | 103370 |
| 9 | GPT-4.1OpenAI | 34.28% | -25.0✓6 ✗31 ○13 | 38.0% | 69.8% | 631130 |
| 10 | GPT-3.5OpenAI | 16.78% | -47.0✓0 ✗47 ○3 | 6.0% | 93.8% | 04730 |
| Gesamt (10 Modelle) |
Methodik
Aufgabenstellung
Jedes Modell wird aufgefordert, den Inhalt einer BGB-Norm wiederzugeben. Die Antwort wird mit dem Gesetzestext verglichen. Als korrekt gilt eine Antwort, wenn sie dem Originaltext hinreichend ähnlich ist (normalisierte Levenshtein-Distanz ≥ 80%).
Levenshtein-Distanz
Die Levenshtein-Distanz zählt die minimalen Einzelzeichen-Operationen (Einfügen, Löschen, Ersetzen), um einen Text in einen anderen zu überführen. Zum Beispiel: „Katze“ → „Karte“ erfordert 2 Operationen (t→r, z→t), also Distanz 2. Die Normalisierung setzt die Distanz ins Verhältnis zur Textlänge, sodass kurze und lange Normen vergleichbar werden; 5 Fehler in einem 500-Zeichen-Text wiegen weniger als 5 Fehler in einem 50-Zeichen-Text.
Zweistufiges Testverfahren
Ein einzelner Testdurchlauf zeigt zwar, ob ein Modell die Antwort kennt. Ob es auch einschätzen kann, wann es die Antwort kennt und wann nicht, bleibt dabei offen. Zwei Modi machen beides messbar:
Das Modell muss antworten. Misst das maximal abrufbare Wissen, unabhängig von der Selbsteinschätzung des Modells.
Das Modell erhält die gleiche Frage, diesmal mit der Anweisung, sich lieber zu enthalten als eine falsche Antwort zu geben.
Setzt man beide Durchläufe pro Norm miteinander in Bezug, ergeben sich vier Kombinationen von ideal bis problematisch:
| Forced | Enthaltungsmodus | Interpretation |
|---|---|---|
| Korrekt | Antwortet | Ideal: Modell weiß es und sagt es |
| Korrekt | Enthält sich | Verstecktes Wissen: weiß es, traut sich nicht |
| Falsch | Enthält sich | Gut kalibriert: weiß es nicht, gibt es zu |
| Falsch | Antwortet | Halluzination: weiß es nicht, behauptet es |
Ein Modell wird nach § 932 BGB (gutgläubiger Erwerb) gefragt und enthält sich im Enthaltungsmodus. Ohne den Forced-Modus wäre diese Enthaltung nicht interpretierbar: War das Modell zu vorsichtig, obwohl es die Norm kennt? Oder hat es richtig erkannt, dass es den Text nicht zuverlässig wiedergeben kann? Der Vergleich mit dem Forced-Modus gibt Aufschluss. Antwortet das Modell dort korrekt, war die Enthaltung übervorsichtig (verstecktes Wissen). Antwortet es falsch, war die Enthaltung eine korrekte Selbsteinschätzung (gute Kalibrierung).
Metriken
Score
Durchschnittliche Textähnlichkeit zum Gesetzestext (0–100%), gemessen als normalisierte Levenshtein-Distanz.
Net Correctness
Korrekte Antworten minus falsche Antworten. Enthaltungen werden nicht bestraft, Halluzinationen schon.
Kalibrierung
Anteil der Fälle, in denen das Modell die richtige Entscheidung trifft: antworten, wenn es die Antwort kennt; sich enthalten, wenn nicht.
Verstecktes Wissen
Wie oft sich das Modell enthält, obwohl es im Forced-Modus korrekt antwortet.
Halluzinationsrate
Wie oft das Modell im Enthaltungsmodus falsch antwortet, obwohl es im Forced-Modus falsch lag.
Bewertungskriterien
Die Klassifikation einer Antwort basiert auf dem Vergleich mit dem Gesetzestext:
| Klassifikation | Kriterium | Bedeutung |
|---|---|---|
| Korrekt | Score ≥ 80% | Antwort entspricht im Wesentlichen dem Gesetzestext |
| Inkorrekt | Score < 80% | Antwort weicht erheblich vom Gesetzestext ab |
| Enthaltung | Keine Antwort | Modell verweigert die Antwort (nur im Enthaltungsmodus) |