LLM BGB Benchmark
Wie gut verstehen KI-Modelle deutsches Recht? Ein Benchmark von 20 LLMs anhand von 50 BGB-Normen.
Forced Mode
Forced ModeNet CorrectnessØ -13
10 ModellePositiv (besser als Zufall)
Negativ
Was wird gemessen?
Aufgabe
Für jede BGB-Norm generieren die Modelle eine Antwort, die mit einer Musterlösung (goldText) verglichen wird.
Modi
Forced: Modell muss immer antworten.
Abstention: Modell darf bei Unsicherheit ablehnen.
Net Correctness
Die Anzahl korrekter Antworten minus die Anzahl falscher Antworten.
Dataset
50 handverlesene Normen aus allen Büchern des BGB mit je mehreren Testfällen pro Norm.