LLM BGB Benchmark

Wie gut verstehen KI-Modelle deutsches Recht? Ein Benchmark von 20 LLMs anhand von 50 BGB-Normen.

Forced Mode
Forced ModeNet CorrectnessØ -13
10 Modelle
Positiv (besser als Zufall)
Negativ

Was wird gemessen?

Aufgabe

Für jede BGB-Norm generieren die Modelle eine Antwort, die mit einer Musterlösung (goldText) verglichen wird.

Modi

Forced: Modell muss immer antworten.
Abstention: Modell darf bei Unsicherheit ablehnen.

Net Correctness

Die Anzahl korrekter Antworten minus die Anzahl falscher Antworten.

Dataset

50 handverlesene Normen aus allen Büchern des BGB mit je mehreren Testfällen pro Norm.