← Powrót do strony głównej VEE Scenariusze

Katalog testowanych układów

To zbiór konkretnych scenariuszy spięcia modeli VEE - każdy z własnym grafem przepływu i hipotezą, którą chcemy potwierdzić albo obalić. Różnią się tym, który model rozmawia z którym, gdzie wchodzi solver i co dokładnie weryfikujemy. Wyniki każdego scenariusza dochodzą z benchmarku - poniżej ranking pokolenia 0, aktualizowany na bieżąco.

Enginetric · projekt w testach ladowanie scenariuszy...
Ranking

Scenariusze od najlepszego do najgorszego (pokolenie 0)

Podstawa statystyczna: SCORE = correctness - 0,6 x halucynacje - 0,2 x wariancja - koszt. Liczone jako srednia z wielu przebiegow przy roznych ziarnach (N >= 3 na przypadek); n to liczba przebiegow. Ranking WSTEPNY - pokolenie 0 wciaz sie liczy, pelny jednolity ranking po domknieciu przebiegu. Scenariusze z n < 10 (grounded-panel, role E4) sa jeszcze w toku i nie sa tu rankowane.

#ScenariuszRegionCorrectnessWariancjanSCORE
1Szerokość 1 - jeden drafter (E1_width_w1)szerokosc96,2%0,000260,912
2Uziemienie - bez solvera (E3_g1_no_solver)uziemienie95,5%0,033220,898
3Uziemienie - solver na wejściu (E3_g3_solver_first)uziemienie94,7%0,000380,897
4Solver najpierw, cienka warstwa modelu (baseline_solver_first)baseline90,7%0,030380,845
5Goły model (bez solvera) (baseline_single)baseline66,6%0,069810,627

Pierwszy twardy wniosek (os uziemienia, porownanie kontrolowane na wspolnym podzbiorze): solver na zadaniach ilosciowych daje glownie POWTARZALNOSC - scina wariancje do zera, plus jest okolo 4-5x szybszy i okolo 2.6x tanszy w tokenach. Najslabszy jest goly model bez zadnej obudowy.

Wczytuję scenariusze

Pobieram katalog z scenarios.json i rysuje grafy przepływu...