VEE - Scenariusze | Enginetric

Ranking

Scenariusze od najlepszego do najgorszego (pokolenie 0)

Podstawa statystyczna: SCORE = correctness - 0,6 x halucynacje - 0,2 x wariancja - koszt. Liczone jako srednia z wielu przebiegow przy roznych ziarnach (N >= 3 na przypadek); n to liczba przebiegow. Ranking WSTEPNY - pokolenie 0 wciaz sie liczy, pelny jednolity ranking po domknieciu przebiegu. Scenariusze z n < 10 (grounded-panel, role E4) sa jeszcze w toku i nie sa tu rankowane.

#	Scenariusz	Region	Correctness	Wariancja	n	SCORE
1	Szerokość 1 - jeden drafter (E1_width_w1)	szerokosc	96,2%	0,000	26	0,912
2	Uziemienie - bez solvera (E3_g1_no_solver)	uziemienie	95,5%	0,033	22	0,898
3	Uziemienie - solver na wejściu (E3_g3_solver_first)	uziemienie	94,7%	0,000	38	0,897
4	Solver najpierw, cienka warstwa modelu (baseline_solver_first)	baseline	90,7%	0,030	38	0,845
5	Goły model (bez solvera) (baseline_single)	baseline	66,6%	0,069	81	0,627

Pierwszy twardy wniosek (os uziemienia, porownanie kontrolowane na wspolnym podzbiorze): solver na zadaniach ilosciowych daje glownie POWTARZALNOSC - scina wariancje do zera, plus jest okolo 4-5x szybszy i okolo 2.6x tanszy w tokenach. Najslabszy jest goly model bez zadnej obudowy.

Katalog testowanych układów

Scenariusze od najlepszego do najgorszego (pokolenie 0)

Wczytuję scenariusze