BGBench
Evaluation von 22 Sprachmodellen zur wortgetreuen Wiedergabe von 50 Normen des Bürgerlichen Gesetzbuchs. Jedes Modell wird in zwei Modi getestet: mit Antwortpflicht (Forced) und mit Enthaltungsoption (Abstention). So lässt sich messen, ob ein Modell sein eigenes Wissen korrekt einschätzt.
| Rank | Modell↕ | Score?Durchschnittliche Textähnlichkeit zur Musterlösung (0-100%), gemessen über normalisierte Levenshtein-Distanz.↕ | Net Correctness?korrekt - inkorrekt↓ | Kalibrierung?Wie oft das Modell die richtige Entscheidung trifft zu antworten vs. sich zu enthalten.↕ | Halluzinationsrate?Wenn forced=falsch ist, wie oft antwortet das Modell im Abstention-Modus trotzdem (statt sich zu enthalten)?↕ | VerteilungTP / FP / TN / FN |
|---|---|---|---|---|---|---|
| 1 | GPT-5.2OpenAI | 43.17% | 9.0✓10 ✗1 ○39 | 98.0% | 2.4% | 101390 |
| 2 | GPT-5OpenAI | 46.34% | -6.0✓8 ✗14 ○28 | 70.0% | 32.5% | 814271 |
| 3 | Claude Opus 4.5Anthropic | 61.92% | -7.0✓21 ✗28 ○1 | 44.0% | 92.9% | 212810 |
| 4 | Mistral Large 2512MistralAI | 46.03% | -8.0✓13 ✗21 ○16 | 56.0% | 55.9% | 1321151 |
| 5 | Gemini 3 Flash PreviewGoogle | 60.23% | -12.0✓19 ✗31 ○0 | 38.0% | 96.6% | 193100 |
| 6 | Gemini 3 Pro PreviewGoogle | 61.57% | -13.0✓18 ✗31 ○1 | 38.0% | 96.4% | 183110 |
| 7 | DeepSeek-V3.2DeepSeek | 35.11% | -19.0✓6 ✗25 ○19 | 48.0% | 52.4% | 625181 |
| 8 | Grok 4xAI | 37.23% | -23.0✓10 ✗33 ○7 | 34.0% | 82.5% | 103370 |
| 9 | GPT-4.1OpenAI | 34.28% | -25.0✓6 ✗31 ○13 | 38.0% | 69.8% | 631130 |
| 10 | GPT-3.5OpenAI | 16.78% | -47.0✓0 ✗47 ○3 | 6.0% | 93.8% | 04730 |
| Gesamt (10 Modelle) |
Methodik
Aufgabenstellung
Jedes Modell wird aufgefordert, den Wortlaut einer BGB-Norm wiederzugeben. Die generierte Antwort wird mit dem amtlichen Gesetzestext verglichen. Als korrekt gilt eine Antwort, wenn sie dem Originaltext hinreichend ähnlich ist (normalisierte Levenshtein-Distanz ≥ 80%).
Levenshtein-Distanz
Die Levenshtein-Distanz zählt die minimalen Einzelzeichen-Operationen (Einfügen, Löschen, Ersetzen), um einen Text in einen anderen zu überführen. Beispiel: „Katze“ → „Karte“ erfordert 2 Operationen (t→r, z→t), also Distanz 2. Die Normalisierung setzt die Distanz ins Verhältnis zur Textlänge, sodass kurze und lange Normen vergleichbar werden: 5 Fehler in einem 500-Zeichen-Text wiegen weniger als 5 Fehler in einem 50-Zeichen-Text.
Zweischrittiges Testverfahren
Ein einzelner Testdurchlauf beantwortet nur eine Frage: Hat das Modell das Wissen? Ob das Modell auch weiß, dass es das Wissen hat, bleibt unklar. Erst durch zwei Modi lässt sich beides erfassen:
Das Modell muss antworten. Misst das maximal abrufbare Wissen, unabhängig von der Selbsteinschätzung des Modells.
Das Modell darf sich enthalten. Misst, ob das Modell sein eigenes Wissen korrekt einschätzt (Metakognition).
Durch den Vergleich beider Durchläufe pro Norm ergeben sich vier Fälle:
| Forced | Abstention | Interpretation |
|---|---|---|
| Korrekt | Antwortet | Ideal: Modell weiß es und sagt es |
| Korrekt | Enthält sich | Verstecktes Wissen: weiß es, traut sich nicht |
| Falsch | Enthält sich | Gut kalibriert: weiß es nicht, gibt es zu |
| Falsch | Antwortet | Halluzination: weiß es nicht, behauptet es |
Ein Modell wird nach § 932 BGB (gutgläubiger Erwerb) gefragt und enthält sich im Abstention-Modus. Ohne den Forced-Modus wäre diese Enthaltung nicht interpretierbar: War das Modell zu vorsichtig, obwohl es die Norm kennt? Oder hat es richtig erkannt, dass es den Text nicht zuverlässig wiedergeben kann? Erst der Forced-Modus gibt Aufschluss: Antwortet das Modell dort korrekt, war die Enthaltung übervorsichtig (verstecktes Wissen). Antwortet es falsch, war die Enthaltung eine korrekte Selbsteinschätzung (gute Kalibrierung).
Datensatz
50 Normen aus allen fünf Büchern des BGB (Allgemeiner Teil, Schuldrecht, Sachenrecht, Familienrecht, Erbrecht). Die Auswahl umfasst sowohl zentrale als auch weniger bekannte Vorschriften.
Metriken
Score
Durchschnittliche Textähnlichkeit zwischen Modellantwort und Gesetzestext, gemessen als normalisierte Levenshtein-Distanz (0–100%).
Net Correctness
Anzahl korrekter Antworten minus Anzahl falscher Antworten. Bestraft Halluzinationen stärker als reine Fehlerquote.
Kalibrierung
Anteil der Fälle, in denen das Modell die richtige Entscheidung trifft: antworten wenn es weiß, enthalten wenn es nicht weiß.
Verstecktes Wissen
Anteil der Normen, bei denen das Modell im Abstention-Modus schweigt, obwohl es im Forced-Modus korrekt antwortet.
Halluzinationsrate
Anteil der Normen, bei denen das Modell im Abstention-Modus antwortet, obwohl es im Forced-Modus falsch lag. Auch: Selbstüberschätzung.
Kosteneffizienz
Verhältnis von Score zu API-Kosten. Berücksichtigt, dass teurere Modelle nicht zwangsläufig bessere Ergebnisse liefern.
Bewertungskriterien
Die Klassifikation einer Antwort basiert auf dem Vergleich mit dem amtlichen Gesetzestext:
| Klassifikation | Kriterium | Bedeutung |
|---|---|---|
| Korrekt | Score ≥ 80% | Antwort entspricht im Wesentlichen dem Gesetzestext |
| Inkorrekt | Score < 80% | Antwort weicht erheblich vom Gesetzestext ab |
| Enthaltung | Keine Antwort | Modell verweigert die Antwort (nur im Abstention-Modus) |