To zbiór konkretnych scenariuszy spięcia modeli VEE - każdy z własnym grafem przepływu i hipotezą, którą chcemy potwierdzić albo obalić. Różnią się tym, który model rozmawia z którym, gdzie wchodzi solver i co dokładnie weryfikujemy. Wyniki każdego scenariusza dochodzą z benchmarku - poniżej ranking pokolenia 0, aktualizowany na bieżąco.
Podstawa statystyczna: SCORE = correctness - 0,6 x halucynacje - 0,2 x wariancja - koszt. Liczone jako srednia z wielu przebiegow przy roznych ziarnach (N >= 3 na przypadek); n to liczba przebiegow. Ranking WSTEPNY - pokolenie 0 wciaz sie liczy, pelny jednolity ranking po domknieciu przebiegu. Scenariusze z n < 10 (grounded-panel, role E4) sa jeszcze w toku i nie sa tu rankowane.
| # | Scenariusz | Region | Correctness | Wariancja | n | SCORE |
|---|---|---|---|---|---|---|
| 1 | Szerokość 1 - jeden drafter (E1_width_w1) | szerokosc | 96,2% | 0,000 | 26 | 0,912 |
| 2 | Uziemienie - bez solvera (E3_g1_no_solver) | uziemienie | 95,5% | 0,033 | 22 | 0,898 |
| 3 | Uziemienie - solver na wejściu (E3_g3_solver_first) | uziemienie | 94,7% | 0,000 | 38 | 0,897 |
| 4 | Solver najpierw, cienka warstwa modelu (baseline_solver_first) | baseline | 90,7% | 0,030 | 38 | 0,845 |
| 5 | Goły model (bez solvera) (baseline_single) | baseline | 66,6% | 0,069 | 81 | 0,627 |
Pierwszy twardy wniosek (os uziemienia, porownanie kontrolowane na wspolnym podzbiorze): solver na zadaniach ilosciowych daje glownie POWTARZALNOSC - scina wariancje do zera, plus jest okolo 4-5x szybszy i okolo 2.6x tanszy w tokenach. Najslabszy jest goly model bez zadnej obudowy.
Pobieram katalog z scenarios.json i rysuje grafy przepływu...