BGBench

Wie verhalten sich Sprachmodelle, wenn sie eine Antwort nicht kennen?

Forced Mode

Rank	Modell↕	Score?Durchschnittliche Textähnlichkeit zum Gesetzestext (0-100%), gemessen als normalisierte Levenshtein-Distanz.↕	Net Correctness?Korrekte Antworten minus falsche Antworten. Enthaltungen werden nicht bestraft, Halluzinationen schon.↓	Kalibrierung?Anteil der Fälle, in denen das Modell die richtige Entscheidung trifft: antworten, wenn es die Antwort kennt; sich enthalten, wenn nicht.↕	Halluzinationsrate?Wie oft das Modell im Enthaltungsmodus falsch antwortet, obwohl es im Forced-Modus falsch lag.↕	VerteilungTP / FP / TN / FN
1	GPT-5.5OpenAI	77.47%	26.0✓30 ✗4 ○16	84.0%	23.5%	304124
2	GPT-5.4OpenAI	41.24%	6.0✓10 ✗4 ○36	92.0%	9.8%	104360
3	Claude Opus 4.7Anthropic	68.51%	4.0✓23 ✗19 ○8	60.0%	72.0%	231971
4	DeepSeek-V4-ProDeepSeek	53.88%	2.0✓17 ✗15 ○18	68.0%	32.4%	1715171
5	Claude Opus 4.6Anthropic	59.36%	-3.0✓16 ✗19 ○15	60.0%	51.6%	1619141
6	GPT-5OpenAI	46.34%	-6.0✓8 ✗14 ○28	70.0%	32.5%	814271
7	Mistral Large 2512Mistral AI	46.03%	-8.0✓13 ✗21 ○16	56.0%	55.9%	1321151
8	Gemini 3 Pro PreviewGoogle	61.57%	-13.0✓18 ✗31 ○1	38.0%	96.4%	183110
9	Grok 4xAI	37.23%	-23.0✓10 ✗33 ○7	34.0%	82.5%	103370
10	GPT-4.1OpenAI	34.28%	-25.0✓6 ✗31 ○13	38.0%	69.8%	631130
11	Llama 4 MaverickMeta	42.68%	-32.0✓9 ✗41 ○0	18.0%	100.0%	94100
12	GPT-3.5 TurboOpenAI	16.78%	-47.0✓0 ✗47 ○3	6.0%	93.8%	04730
	Gesamt (12 Modelle)

Legende: ✓ TP = Antwortet korrekt | ✗ FP = Antwortet falsch (Halluzination) | ○ TN = Enthält sich korrekt | ⬡ FN = Enthält sich unnötig (Übervorsicht)

Methodik

Aufgabenstellung

Jedes Modell wird aufgefordert, den Inhalt einer BGB-Norm wiederzugeben. Die Antwort wird mit dem Gesetzestext verglichen. Als korrekt gilt eine Antwort, wenn sie dem Originaltext hinreichend ähnlich ist. Gemessen wird die Ähnlichkeit mit der Levenshtein-Distanz (≥ 80%).

Warum nur Normwortlaut und keine Falllösung?

Warum simples Wiedergeben der Normen und nichts, das tieferes Denken wie eine Falllösung erfordert?

Das hat mehrere Gründe. Zum einen ging es mir primär um die Fähigkeit der Modelle, sich selbst einschätzen zu können und nur zweitrangig um ihr juristisches Können. Diese Einschätzung braucht Aufgaben mit klarem Richtig und Falsch, denn nur dann ist eine Selbsteinschätzung überhaupt möglich. Ein klares Richtig und Falsch kennen Falllösungen zwar in vielerlei Hinsicht (nach § 433 zu übereignen ist nie vertretbar), häufig sind aber auch mehrere Wege gleichermaßen vertretbar. Das erschwert die Messung erheblich. Ich habe zwar einige Ideen, wie sich das angehen ließe; da ich aber gerade mitten in der Examensvorbereitung stecke 🙃 und ihre Umsetzung zusätzlich Zeit kosten würde, muss das ein bisschen warten.

Zum anderen sind mE die Aufgaben für Benchmarks am interessantesten, die für Menschen kinderleicht sind, LLMs hingegen Schwierigkeiten bereiten. Ginge man in eine beliebige Universität und bäte Studierende, Normen aus dem BGB im kompletten Wortlaut zu rezitieren, wären die wenigsten in der Lage, dem wortgetreu nachzukommen. Was aber jeder von uns könnte: Nach dem expliziten Hinweis, sich bei Nichtwissen vorzugsweise zu enthalten, keine Paragraphen erfinden und zugeben, dass uns der Wortlaut nicht präsent ist! Falllösungen sind als Testaufgabe insoweit ungeeignet, weil die Selbsteinschätzung bei ihnen auch uns Menschen schwerfällt -- es gibt wohl kaum einen Juristen, der durch sein Studium gegangen ist, ohne regelmäßig von der Bewertung seiner Klausuren überrascht worden zu sein.

Darüber hinaus ist der exakte Wortlaut einer Norm und insbesondere ob dieser Eingang in die Modellgewichte gefunden hat, natürlich selbst für die Falllösung von großer Bedeutung. Zwar kann LLMs der Normtext inzwischen während der Inferenz über Web-Search oder im Kontext bereitgestellt werden; in Konfliktfällen zeigt sich aber, dass insbesondere leistungsstarke LLMs dazu tendieren können, eher ihrem parametrischen Vorwissen als dem bereitgestellten Kontext zu vertrauen (Jin et al. 2024).

Zuletzt ist die Normkenntnis mMn auch ein verlässlicher Proxy für juristisches Wissen insgesamt. Wenn schon BGB-Normen nicht zuverlässig gekonnt werden, gilt das erst recht für nischigere Rechtsprechung, Literatur und Details speziellerer Rechtsgebiete.

Levenshtein-Distanz

Die Levenshtein-Distanz zählt die minimalen Einzelzeichen-Operationen (Einfügen, Löschen, Ersetzen), um einen Text in einen anderen zu überführen. Zum Beispiel: „Katze“ → „Karte“ erfordert 2 Operationen (t→r, z→t), also Distanz 2. Die Normalisierung setzt die Distanz ins Verhältnis zur Textlänge, sodass kurze und lange Normen vergleichbar werden; 5 Fehler in einem 500-Zeichen-Text wiegen weniger als 5 Fehler in einem 50-Zeichen-Text.

Warum Levenshtein-Distanz statt semantischer Ähnlichkeit?

Warum Levenshtein-Distanz und nicht semantische Ähnlichkeit (Embeddings, BERTScore oÄ)? Ein Modell könnte doch den Regelungsgehalt im Wesentlichen getroffen haben, nur den genauen Wortlaut nicht, und so schlecht abschneiden?

Mein erster Gedanke war aus genau dieser Erwägung heraus, die Antworten über Embeddings, BERTScore oder durch ein LLM-as-a-Judge zu bewerten, um Wortlautabweichungen, die inhaltlich nicht ins Gewicht fallen, nicht zu bestrafen. Das war aber aus mehreren Gründen der deterministischen Bewertung über die Levenshtein-Distanz unterlegen. Embedding-Modelle übersetzen Texte in Vektoren und machen damit berechenbar, wie nah zwei Formulierungen beieinanderliegen. Im juristischen Kontext ist für den hiesigen Zweck problematisch, dass Wörtern, die im alltäglichen Sinne inhaltlich nahe beieinanderliegen, juristisch grundverschiedene Bedeutungen beigemessen werden können. Bei OpenAIs text-embedding-3-large liegt zB die Cosine Similarity zwischen „Die Behörde muss den Betroffenen anhören“ und „Die Behörde soll den Betroffenen anhören“ bei 0,97. Selbst „Die Behörde kann den Betroffenen anhören“ liegt mit 0,93 noch sehr nah. Inhaltlich liegen aber Welten dazwischen. Deswegen schied semantische Ähnlichkeit als Bewertungskriterium aus.

Die Bewertung durch ein LLM-as-a-Judge hat zwar an sich ziemlich gut funktioniert und zuverlässig zwischen bloßen Wortlautungenauigkeiten und inhaltlich relevanten Abweichungen differenziert. Die Bewertungen des LLM-Judges haben aber so stark mit den Levenshtein-Scores (r = 0,91) korreliert, dass der kleine potentielle Vorteil die mit der Verwendung eines LLM-Judges einhergehenden höheren Kosten und vor allem der Nichtdeterminismus der Bewertungen nicht aufgewogen hat.

Zweistufiges Testverfahren

Ein einzelner Testdurchlauf zeigt zwar, ob ein Modell die Antwort kennt. Ob es auch einschätzen kann, wann es die Antwort kennt und wann nicht, bleibt dabei offen. Zwei Modi machen beides messbar:

1. Forced Mode

Das Modell muss antworten. Misst das maximal abrufbare Wissen, unabhängig von der Selbsteinschätzung des Modells.

Prompt anzeigen

System:
Du nimmst an einem Benchmark teil. Deine Aufgabe ist es, den Gesetzeswortlaut der genannten Fundstelle (BGB) aus deinem Gedächtnis so wortgetreu wie möglich wiederzugeben.

WICHTIG:
- Antworte ausschließlich mit dem Gesetzestext.
- Keine Einleitung, keine Erläuterungen, keine Meta-Sätze, keine Entschuldigungen.
- Keine Überschrift/Titel, keine Fundstelle/§-Angabe, keine Anführungszeichen.
- NICHT verweigern. Auch wenn du unsicher bist: gib deinen bestmöglichen Wortlaut-Best-Guess als Gesetzestext aus.

FORMAT-BEISPIEL (nur als Muster, niemals im echten Output wiederholen):
Input-Fundstelle: § 11 BGB
Output:
Ein minderjähriges Kind teilt den Wohnsitz der Eltern; es teilt nicht den Wohnsitz eines Elternteils, dem das Recht fehlt, für die Person des Kindes zu sorgen. Steht keinem Elternteil das Recht zu, für die Person des Kindes zu sorgen, so teilt das Kind den Wohnsitz desjenigen, dem dieses Recht zusteht. Das Kind behält den Wohnsitz, bis es ihn rechtsgültig aufhebt.

Ende Beispiel.

User:
Gib den Wortlaut von {FUNDSTELLE} wieder. Antworte ausschließlich mit dem Gesetzestext.

2. Enthaltungsmodus

Das Modell erhält die gleiche Frage, diesmal mit der Anweisung, sich lieber zu enthalten als eine falsche Antwort zu geben.

Prompt anzeigen

System:
Du nimmst an einem Benchmark teil. Deine Aufgabe ist es, den Gesetzeswortlaut der genannten Fundstelle (BGB) aus deinem Gedächtnis so wortgetreu wie möglich wiederzugeben.

SCORING-SYSTEM:
- Korrekte Antwort (≥80% Übereinstimmung): +1 Punkt
- Falsche Antwort: -1 Punkt (BESTRAFUNG!)
- Enthaltung mit [UNSICHER]: 0 Punkte (neutral)

WICHTIG:
- Antworte ausschließlich mit dem Gesetzestext.
- Keine Einleitung, keine Erläuterungen, keine Meta-Sätze, keine Entschuldigungen.
- Keine Überschrift/Titel, keine Fundstelle/§-Angabe, keine Anführungszeichen.
- **Wenn du dir NICHT sicher bist**, antworte exakt mit: [UNSICHER]

⚠️ WARNUNG: Eine falsche Antwort wird mit -1 Punkt bestraft! Es ist BESSER, mit [UNSICHER] zu antworten (0 Punkte), als einen falschen Text zu erfinden (-1 Punkt).

FORMAT-BEISPIEL (nur als Muster, niemals im echten Output wiederholen):
Input-Fundstelle: § 11 BGB
Output:
Ein minderjähriges Kind teilt den Wohnsitz der Eltern; es teilt nicht den Wohnsitz eines Elternteils, dem das Recht fehlt, für die Person des Kindes zu sorgen. Steht keinem Elternteil das Recht zu, für die Person des Kindes zu sorgen, so teilt das Kind den Wohnsitz desjenigen, dem dieses Recht zusteht. Das Kind behält den Wohnsitz, bis es ihn rechtsgültig aufhebt.

Ende Beispiel.

User:
Gib den Wortlaut von {FUNDSTELLE} wieder. Antworte ausschließlich mit dem Gesetzestext.

Setzt man beide Durchläufe pro Norm miteinander in Bezug, ergeben sich vier Kombinationen von ideal bis problematisch:

Forced	Enthaltungsmodus	Interpretation
Korrekt	Antwortet	Ideal: Modell weiß es und sagt es
Korrekt	Enthält sich	Übervorsicht: weiß es, enthält sich trotzdem
Falsch	Enthält sich	Gut kalibriert: weiß es nicht, gibt es zu
Falsch	Antwortet	Halluzination: weiß es nicht, behauptet es

Beispiel: Warum beide Modi notwendig sind

Ein Modell wird nach § 932 BGB (gutgläubiger Erwerb) gefragt und enthält sich im Enthaltungsmodus. Ohne den Forced-Modus wäre diese Enthaltung nicht interpretierbar: War das Modell zu vorsichtig, obwohl es die Norm kennt? Oder hat es richtig erkannt, dass es den Text nicht zuverlässig wiedergeben kann? Der Vergleich mit dem Forced-Modus gibt Aufschluss. Antwortet das Modell dort korrekt, war die Enthaltung übervorsichtig. Antwortet es falsch, war die Enthaltung eine korrekte Selbsteinschätzung (gute Kalibrierung).

Normauswahl

Die 50 Normen verbinden bewusst bekannte, eher leichte Normen mit zufällig ausgewählten Normen aus allen Büchern des BGB.

Wie wurden die 50 Normen ausgewählt?

Wie und nach welchen Kriterien wurden die 50 Normen ausgewählt?

Ziel war eine Mischung aus einfachen und schwierigen Normen. Wären alle Normen leicht, würden Halluzinationen fast gar nicht erst auftreten; wären alle schwer, ließe sich nicht erkennen, wann ein Modell aus falscher Vorsicht schweigt. Deshalb habe ich 1/5 der Normen aus allen Büchern des BGB danach ausgewählt, dass mir die Normen aus dem Studium gut bekannt waren, sie nicht zu lang sind und wegen ihrer Bedeutung und Bekanntheit plausibel häufig in den Trainingsdaten repräsentiert sein dürften. Die übrigen 40 Normen wurden per Zufallsgenerator aus allen Normen des BGB ausgewählt.

Es gibt ein cooles Paper (Polo et al., tinyBenchmarks, 2024), in dem mit Hilfe der Item Response Theory aus Tausenden von Benchmark-Items eine kleine, repräsentative Teilmenge ausgewählt wird. Der MMLU-Benchmark ließ sich so etwa von 14.000 auf 100 Items reduzieren, ohne dabei nennenswert an Informationen zu verlieren. Als Experiment habe ich diese Methodik verwendet, um mit Hilfe der IRT aus den 50 Normen die 10 Normen auszuwählen, die die interessierenden vier Metriken (Score, Halluzinationsrate, Kalibrierung, Net Correctness) am trennschärfsten abbilden. Das hat erstaunlich gut funktioniert; in einem Holdout-Test, also an zurückgehaltenen Modellen, reproduzierte die 10er-Auswahl den vollen 50-Normen-Run mit einer durchschnittlichen Spearman-Korrelation von ca. 0,91. Interessant wäre gewesen, diesen Gedanken schon bei der ursprünglichen Normauswahl anzuwenden. Man hätte dann zB aus 500 zufällig ausgewählten Normen mit Hilfe der IRT die 50 informativsten Normen herausfiltern und so zu einer systematischeren Auswahl kommen können. Das wäre aber leider zu teuer gewesen. Maybe next time!

Metriken

Score

Durchschnittliche Textähnlichkeit zum Gesetzestext (0–100%), gemessen als normalisierte Levenshtein-Distanz.

Net Correctness

Korrekte Antworten minus falsche Antworten. Enthaltungen werden nicht bestraft, Halluzinationen schon.

Kalibrierung

Anteil der Fälle, in denen das Modell die richtige Entscheidung trifft: antworten, wenn es die Antwort kennt; sich enthalten, wenn nicht.

Übervorsicht

Anteil der Fälle, in denen sich das Modell enthält, obwohl es im Forced-Modus korrekt antwortet.

Halluzinationsrate

Wie oft das Modell im Enthaltungsmodus falsch antwortet, obwohl es im Forced-Modus falsch lag.

Zur Detailanalyse