VEES - Virtual Engineering Expert System, by Enginetric

Jak to działa

W trzech krokach

Pojedynczy model AI potrafi dać różne odpowiedzi przy drobnej zmianie pytania. VEES rozwiązuje to inaczej: pyta wiele modeli naraz, sprawdza ich odpowiedzi prawdziwym obliczeniem i składa z tego jedną, pewną odpowiedź.

Wiele modeli równolegle

Pytanie trafia nie do jednego modelu, lecz do wielu modeli pracujących równolegle. Każdy podchodzi do problemu inaczej, więc słabe i przypadkowe odpowiedzi szybko się ujawniają.

Osadzenie prawdziwym obliczeniem

VEES zestawia propozycje modeli i sprawdza je deterministycznym solverem oraz normami ze źródła. Liczby liczy silnik obliczeniowy, a nie zgaduje model. To odcina halucynacje.

Jedna pewna, zweryfikowana odpowiedź

Na wyjściu dostajesz jedną, zweryfikowaną odpowiedź wraz z dowodem walidacji, czym dokładnie została policzona. Nie kilka sprzecznych wariantów do oceny, lecz wynik, któremu można zaufać.

Dla kogo i po co

Dla inżyniera, który potrzebuje odpowiedzi godnej zaufania

VEES jest pomyślane dla profesjonalisty, który podejmuje decyzje na podstawie wyników i nie może pozwolić sobie na zgadywanie. Każdy układ spinający modele jest mierzony na żywo, a nie deklarowany. Dziś pierwszym obszarem jest wiertnictwo i przewierty HDD; docelowo to ogólnoinżynierski ekspert w walizce.

Mocniejszy w swojej dziedzinieW swojej domenie jest pewniejszy niż asystent ogólnego przeznaczenia, bo łączy wiedzę dziedzinową z deterministycznym obliczeniem.
Odpowiedzi, którym można zaufaćKażda liczba ma dowód walidacji w solverze, każda norma w źródle. Wiadomo, skąd wziął się wynik, więc da się go obronić przed audytem.
Bez halucynacjiTam, gdzie ogólne AI zmyśla pewnym tonem, VEES odcina liczby bez pokrycia. Pewność wyniku jest częścią produktu, nie efektem ubocznym.
Lokalny rdzeń, opcjonalnie chmuraRdzeń pracuje lokalnie u Ciebie, więc dane wrażliwe mogą zostać na miejscu. Tam, gdzie wolno, układy hybrydowe dokładają premium chmurę - Ty decydujesz, co liczy się lokalnie.

Schemat przepływów

Jak płyną impulsy przez system

Pytanie wchodzi z zewnątrz, orkiestrator rozdziela je między drafterów, deterministyczny solver liczy prawdę, weryfikatorzy sprawdzają, a synteza odsyła odpowiedź z dowodem walidacji - cała maszyneria zamknięta w jednej maszynie.

drafter solver (prawda) weryfikator synteza

Koncept

Jeden ekspert, w środku rój

VEES to nie czat z modelem. To zamknięty, suwerenny silnik ekspercki: na jednej maszynie żyje orkiestrator klasy Kimi (replikacja Abiego), a pod nim rój modeli roboczych. Orkiestrator rozkłada zadanie, rozdziela je w roju, a prawdę bierze z deterministycznego solvera i ze źródeł - nie z „pamięci" modelu.

Silnik LICZY, AI ubiera.

Orkiestrator definiuje zadanie → rój modeli rozumuje równolegle → solver liczy → weryfikator powtarza obliczenie → strażnik wyrzuca każdą liczbę bez pokrycia. Na wyjściu: odpowiedź eksperta z pełnym dowodem walidacji, czym dokładnie została policzona. Całość w jednej obudowie - model klienta nie opuszcza jego maszyny.

Każda liczba ma dowód walidacji w solverze, każda norma - w źródle.

To przewaga Enginetrica trudna do skopiowania: anty-halucynacja jako cecha produktu klasy Enterprise. Audytowalność i suwerenność, których natywne modele językowe nie dają.

Konfiguracje

Układy, które uruchamiamy i badamy

Każda konfiguracja to inny sposób spięcia modeli i narzędzi. To wycinek pełnego katalogu 49 układów - testujemy je po kolei i mierzymy, czy realnie podnoszą jakość, czy tylko spalają moc.

⌬

Łańcuch 3 ról

Drafter → weryfikator → strażnik na jednym modelu (qwen3.6:35b-a3b) - trzy system-prompty, łańcuch szeregowy. Strażnik realnie koryguje draft.

Rdzeń

∑

Self-consistency

N drafterów liczy niezależnie, bierzemy medianę liczb. Tłumi pojedyncze wpadki - ale nie naprawia błędu wspólnego dla wszystkich.

Głosowanie

⟨/⟩

Tryb kodowy

Role przełączone na programistyczne (autor → reviewer → integrator), głosowanie wyłączone. Produkuje kompletny, uruchamialny kod - nie urywki.

Zweryfikowany ✓

⚙

Most do solvera

Rój nie zgaduje fizyki - woła deterministyczny solver Rust: frac-out, hydraulika, balastowanie, dopasowania reologiczne. Każdy wynik z dowodem walidacji.

Działa ✓

📚

Retrieval norm

Każda norma/wartość tablicowa cytowana ze źródła z korpusu, zamiast „pamięci" modelu. Następny element osadzenia.

W budowie

⇶

Skalowanie roju

Mocniejszy sprzęt → więcej instancji → warstwy równoległe biegną naprawdę równolegle, orkiestrator rozdziela zadania na wolne modele.

Roadmap

Skalowanie sprzętu

Rój na jednym, dwóch i czterech Blackwellach

Jednostka mocy to jeden Blackwell - 96 GB pamięci karty (nasz dzisiejszy węzeł). Im więcej kart, tym więcej różnych rodzin modeli pracuje NAPRAWDĘ równolegle i tym większy orkiestrator stać nas utrzymać na własnym sprzęcie, bez chmury. Trzy rozwiązania teoretyczne - poprawność na każdym z nich pilnuje ten sam solver.

◧

1× Blackwell · 96 GB

Solista osadzony. Jeden mocny model (qwen3.6:35b-a3b) niesie cały łańcuch, różnorodność dokładają 1-2 mniejsze rodziny, a poprawność dźwiga solver.

Dowód: solista + solver = 0,945 na inżynierii HDD - parytet z całym panelem. Suwerennie i tanio na jednej karcie.

Zmierzone ✓

◨

2× Blackwell · 192 GB

Rada heterogeniczna. Rój rozbity po rolach na dwie karty: drafterzy i synteza na jednej, trzy soczewki weryfikacji (Gemma + Mistral + Phi) na drugiej.

Zysk: panel weryfikatorów biegnie realnie równolegle, różne rodziny naraz - lekarstwo na skorelowane błędy. To pełny rada-solver na sprzęcie.

Projekt

▣

4× Blackwell · 384 GB

VEES pełny. Stać nas na duży orkiestrator klasy Kimi na WŁASNYM węźle (NVFP4) + osobna pamięć na drafterów i weryfikatorów + router + obsługa wielu zapytań naraz.

Zysk: koniec zależności od chmury, dane nie wychodzą z maszyny. Docelowe „jedna maszyna, zamknięte modele, jeden orkiestrator".

Cel

Zasada wspólna Na każdym poziomie silnik LICZY, AI ubiera - liczby zawsze z solvera, nigdy z „pamięci" modelu. Przepustowość i jakość NVFP4 to teoria do zmierzenia baterią, nie obietnica.

Pomiar · tokeny na sekundę

Ile nasze modele realnie generują

Twarde liczby z pomiaru, nie z karty katalogowej. Lokalne mierzone na naszym Blackwellu (96 GB), chmurowe jako efektywny tok/s od pytania do odpowiedzi. Najważniejsza lekcja: o szybkości decyduje nie „klasa modelu", tylko czy wagi siedzą w pamięci karty, czy spadają do RAM.

Model lokalny (Blackwell)	tok/s	status
qwen3.6:35b-a3b MoE	~205	zmierzone ✓
gemma4:26b-a4b MoE	~184	zmierzone ✓
gemma4:31b dense	~43	zmierzone ✓
deepseek-v4-flash 284B, 151 GB	~13,5	offload do RAM

Model chmurowy (OpenRouter)	tok/s	uwaga
MiniMax-M2	~54	najszybszy
Qwen3-235B thinking	~52	-
GLM-4.7	~39	najwyższa jakość
Kimi-K2 thinking	~38	-
DeepSeek-V3.2	~35	-

Lekcja deepseek-v4-flash (284 mld parametrów, 151 GB) nie mieści się w 96 GB karty - 55 GB liczy się z RAM, stąd ~13,5 tok/s zamiast setek. Pełną prędkość osiąga dopiero drugi Blackwell (192 GB w pamięci karty). Chmura: liczy się jakość na token, nie surowa szybkość - GLM-4.7 jest wolniejszy efektywnie od MiniMaxa, a wygrał. Efektywny tok/s zawiera narzut sieci i rozumowania; część modeli lokalnych jeszcze mierzymy.

Topologie

Katalog 49 układów w 6 rodzinach

Topologia to konkretny pomysł na to, który model rozmawia z którym i po co. Z czterech wczesnych koncepcji urósł żywy katalog 49 układów ułożonych w 6 rodzin (A-F). 25 z nich jest uruchamialnych i mierzonych na żywo na tej samej baterii pytań, pozostałe 23 to projekty na desce kreślarskiej. Compute czerpiemy z trzech źródeł: lokalny Krupster, druga maszyna Mustang i premium chmura OpenRouter. Wybieramy układ najlepszy pod HDDSuite - ten, który najpewniej łapie błąd i najmocniej kotwiczy się w prawdzie solvera.

▦

A · Zespoły i głosowanie

Pomysł: kilka modeli z różnych rodzin rozwiązuje niezależnie, a głosowanie i synteza składają wspólną odpowiedź. Różnorodność rodzin rozbija skorelowane błędy.

Przedstawiciel: A1 Panel większościowy z kotwicą solvera - C 1,00. Solver odcina liczby bez pokrycia.

2 z 8 mierzone na żywo

⚙

B · Weryfikacja i anty-halucynacja

Pomysł: najpierw policz solverem, dopiero potem model ubiera gotowe liczby - halucynacja liczbowa eliminowana u źródła. Łańcuchy weryfikatorów o różnych soczewkach (jednostki, fizyka, wzór).

Przedstawiciel: B1 Solver-First Gate - uziemienie deterministyczne przed generacją.

3 z 8 mierzone na żywo

⚲

C · Routing i kaskady

Pomysł: lekki router klasyfikuje trudność pytania i kieruje je do jednego wykonawcy - tani lokalny dla łatwych, mocny lokalny dla średnich, chmura dla trudnych. Hybryda lokalne/chmura.

Przedstawiciel: C1 Sovereign Router - jednoskokowa alokacja. Najbardziej w duchu VEES.

8 projektów

▤

D · Domenowe i naukowe

Pomysł: układy szyte pod konkretną dziedzinę i dane - retrieval uziemia, solver liczy, model ubiera w polszczyznę, audytor sprawdza liczba po liczbie. Także multimodalne.

Przedstawiciel: D1 RAG-grounded ekspert reologiczny.

4 z 8 mierzone na żywo

✦

E · Nowe układy

Pomysł: świeże pomysły wchodzące do testów - m.in. coder jako weryfikator sprawdzający sam wzór symbolicznie, obok jednostek i fizyki.

Przedstawiciel: NEW2 Strażnik wzoru.

4 z 4 mierzone na żywo

⛁

F · Hybryda dom + chmura

Pomysł: miks modeli z Krupstera i Mustanga z premium chmurą - ciężka praca zostaje lokalnie, a chmura podnosi sufit jakości finału kosztem pojedynczych wywołań OpenRouter.

Przedstawiciel: F3 Dwa ciała lokalne + chmurowy arbiter - C 1,00; F1 Lokalny panel + premium synteza - C 0,88.

12 z 12 mierzone na żywo

Żywy katalog Każdy z 49 układów ma własną kartę, schemat spięcia i - jeśli jest uruchamialny - świeży wynik z baterii. Pełny katalog z miarami na żywo: podstrona Scenariusze.

Żywe laboratorium - katalog układów na żywo

Mierzymy katalog 49 układów twardymi liczbami

To nie statyczna narracja, tylko żywe laboratorium. Mierzymy katalog 49 układów w 6 rodzinach (A-F) - z rodziną F łączącą dom (Krupster, Mustang) i chmurę. Realne wyniki aktualizujemy na bieżąco: dziesiątki zmierzonych topologii i setki przebiegów, metryki zgody, halucynacji, weryfikacji oraz latencji i tokenów dla każdego modelu. Nie „wydaje się" - zmierzone.

✓ Teza potwierdzona na żywo

Heterogeniczny panel złapał niebezpieczny błąd

Jeden z 48 mierzonych układów (katalog A-F). Pytanie frac-out, panel wielu rodzin modeli, solver = prawda odniesienia: ryzyko „fracout".

goły model (1 model)

BŁĄD

gemma4:31b (drafter)

weryfikator-fizyk

złapał

synteza (finał)

Goły model orzekł „brak ryzyka, bezpiecznie" (zignorował granicę płynięcia) - sam wprowadziłby wiertnika w błąd. Weryfikator innej rodziny to wychwycił, a synteza dała poprawny finał. Dziś mierzymy na żywo cały katalog 49 układów, w tym hybrydy dom+chmura (Krupster + Mustang + OpenRouter).

Osadzony panel w liczbach rankingu

Topologia grounded-panel na pełnym katalogu - zmierzona, nie deklarowana.

Zgodność z solverem (C)0,94

Halucynacje (H)0

Wariancja (V)0,03

Liczba przebiegów (n)64

🍀🍀 ✓ Druga noga wyroczni - live

Retrieval norm: fakt z cytatem, nie z modelu

Obok solvera (liczby) stanął drugi silnik prawdy: retrieval z kanonu 143 fragmentów (wytyczne HDD, math-reference, reologia) - norma ze wskazaniem źródła, nie z głowy modelu.

Kanon (fragmentów)143

Halucynacje normzdławione

Podział prawdysolver = liczby · kanon = normy

Pełny przebieg na żywo: orkiestrator zaciągnął normę o stabilności nadkładu z cytatem ze źródła, solver policzył stratę ciśnienia, a finał połączył jedno z drugim - i sam przyznał, czego w kanonie nie ma. Liczba z solvera, norma z cytatu, model tylko ubiera w słowa.

🍀 ✓ Druga noga zmierzona

Cytowanie norm: 0% bez retrievalu, 83% z nim

Pomiar trzech poziomów uziemienia: goły GLM, + solver, + dwie nogi (solver i retrieval). 6 pytań HDD, N=3, sygnały twarde - nie ocena modelu.

Cytowanie źródła normygoły 17% · solver 0% · dwie nogi 83%

Zmyślone normy0 na każdym poziomie

Gadulstwo (znaki finału)1765 → ~530

Cytowanie źródeł norm przychodzi WYŁĄCZNIE z retrievalu (83% z drugą nogą, 0% z samym solverem) - solver liczy, retrieval cytuje, role nie do zastąpienia. Grounding dodatkowo tnie lanie wody o 70%. GLM sam nie zmyśla numerów norm, więc retrieval dokłada pozytywne źródła. Pomiar N=3, 6 pytań - twardszy werdykt niż wstępny N=2.

✓ Mierzymy cały katalog na żywo

Żywy ranking układów - dom + chmura

32 topologie, 768 przebiegów (stan 21.06.2026). Każdy układ z katalogu A-F idzie przez trzy źródła: Krupster + Mustang + OpenRouter.

F6 hybryda dom+chmura

0,95

swarm-gemma-mini (lokalny)

0,95

qwen-dense-synth

0,93

goły model (baseline)

0,65

Czoło rankingu trzyma 0 halucynacji przy zgodności C 1,0. Hybryda F6 - tani tor lokalny na Mustangu + premium audyt z chmury - dogania najlepsze układy lokalne za ułamek kosztu.

Realny wynik hybrydy F6

„Tani tor lokalny + premium audyt z chmury" - zmierzony, nie deklarowany.

SCORE0,95

Zgodność z solverem (C)1,0

Halucynacje (H)0

Latencja134 s

Tokeny (lokalne + chmura)15 235

✓ Czołówka mierzona na żywo

Ranking na żywo - czołówka układów

32 zmierzone topologie, 768 przebiegów. Słupek = SCORE (0-1), liczba z prawej = C (zgodność z prawdą).

F11 rdzeń dom + chmura

C 1,0

F6 tani tor + audyt chmury

C 1,0

Rój Gemma + solver

C 1,0

Gęsty Qwen jako synteza

C 0,98

Dwa Qweny (MoE + gęsty)

C 0,96

Czołówka ma SCORE 0,95 i zero halucynacji (H=0). F6 jest w czołówce najtaniej - 134 s i ~15 tys. tokenów. Pełny katalog 49 układów →

✓ Osadzenie wygrywa

Twardy wniosek

Najważniejsza lekcja całego projektu.

O wyniku decyduje nie liczba modeli, lecz prawda spoza modelu i dobór topologii. Osadzenie w solverze podnosi C z 0,69 (goły model) do ~0,95 (solver najpierw).

Tania hybryda dom + chmura (rodzina F) siada w czołówce niemal za darmo - lokalny tor liczy, chmura tylko audytuje. Mierzymy dalej; ranking aktualizuje się na bieżąco.

✓ Działa na jasnej specyfikacji

Produkcja kodu trybem --code

Osobny tor w katalogu 49 układów. Zadanie: samodzielny kalkulator HTML (siły przeciskowe mikrotunelowania). Sprawdzian: czy złapie, że siła od długości jest LINIOWA, nie wykładnicza.

Kompletny kod

✓

Fizyka poprawna

✓

Bez pułapki wykł.

✓

Pierwszy strzał

✓

Tor kodowy (~36 s) wyprodukował 281 linii używalnego HTML ze wzorem liniowym F = F_czoło + μ·π·D·L·σ - jednym strzałem, bez iteracji.

Gdzie tor kodowy ma sens

Jeden z mierzonych torów, nie cała historia.

Przy generacji kodu z dobrą specyfikacją drafter ma mniej miejsca na konfabulację, a reviewer łapie realne bugi. Tor kodowy jest mocny tam, gdzie zadanie jest jednoznaczne - i tam ma odciążać. Doborem topologii dla całej reszty zajmuje się mierzony katalog 49 układów.

Kierunek: osadzenie w prawdzie

Co potwierdziły testy - w jednym miejscu

Stan na dziś, bez upiększania. Liczby z żywego katalogu 49 układów (rodziny A-F), realne przebiegi.

⚙ Osadzenie w solverze wygrywaC 0,95 vs 0,69 goły model

⌬ Sam rój modeli (więcej głosów / ról)✗ za mało bez osadzenia

▦ Osadzony panel heterogenicznyC 0,94

⇄ Hybryda dom + chmura (rodzina F)zmierzona, C 0,88

⟨/⟩ Tryb kodowy na jasnej spec✓ dobra

📚 Retrieval norm ze źródła~ w budowie

⇶ Skalowanie na więcej instancji~ roadmap

Sedno: wartość nie rodzi się z liczby modeli, tylko z prawdy spoza modelu. Dlatego ciężar VEES jest na osadzeniu - solver i retrieval jako źródła faktu, rój jako warstwa rozumowania, orkiestrator jako kontrola. Doszedł żywy katalog 49 układów i pomiar hybryd dom + chmura miksujących trzy źródła obliczeń.

To dziennik drogi do eksperta inżynierskiego.

VEES jest w testach. Ta strona aktualizuje się przy każdym kroku: nowa konfiguracja, nowy benchmark, nowy werdykt - dobra koncepcja czy ślepa uliczka. Bez upiększania, z liczbami. Pełny, żywy katalog mierzonych układów - 48 konfiguracji w sześciu rodzinach - jest na podstronie Scenariusze.

Żywy katalog - 49 układów

Sześć rodzin A-F, część uruchamialna i mierzona, część projektowa. Rodzina F to hybryda dom + chmura, która miksuje trzy źródła obliczeń: Krupster, Mustang i OpenRouter. Wszystko widać w Scenariuszach.

W trzech krokach

Wiele modeli równolegle

Osadzenie prawdziwym obliczeniem

Jedna pewna, zweryfikowana odpowiedź

Dla inżyniera, który potrzebuje odpowiedzi godnej zaufania

Jak płyną impulsy przez system

Jeden ekspert, w środku rój

Silnik LICZY, AI ubiera.

Warstwy jednej maszyny

Układy, które uruchamiamy i badamy

Łańcuch 3 ról

Self-consistency

Tryb kodowy

Most do solvera

Retrieval norm

Skalowanie roju

Rój na jednym, dwóch i czterech Blackwellach

1× Blackwell · 96 GB

2× Blackwell · 192 GB

4× Blackwell · 384 GB

Ile nasze modele realnie generują

Katalog 49 układów w 6 rodzinach

A · Zespoły i głosowanie

B · Weryfikacja i anty-halucynacja

C · Routing i kaskady

D · Domenowe i naukowe

E · Nowe układy

F · Hybryda dom + chmura

Mierzymy katalog 49 układów twardymi liczbami

Heterogeniczny panel złapał niebezpieczny błąd

Osadzony panel w liczbach rankingu

Retrieval norm: fakt z cytatem, nie z modelu

Cytowanie norm: 0% bez retrievalu, 83% z nim

Żywy ranking układów - dom + chmura

Realny wynik hybrydy F6

Ranking na żywo - czołówka układów

Twardy wniosek

Produkcja kodu trybem --code

Gdzie tor kodowy ma sens

Co potwierdziły testy - w jednym miejscu

To dziennik drogi do eksperta inżynierskiego.