Enginetric · projekt w testach

Virtual Enginetric Expert

VEE to wyspecjalizowane AI inżynierskie, które w swojej dziedzinie jest dużo silniejsze i pewniejsze niż ogólny asystent z abonamentu. Zamiast jednego modelu, który zgaduje, pracuje dla Ciebie wiele umysłów AI naraz, a wynik potwierdza prawdziwe obliczenie. Dostajesz jedną odpowiedź, której można zaufać.

QQQQQQQ SOLVER ∑ RETRIEVAL VEE orkiestrator
Bez halucynacji
liczby liczy silnik, nie zgaduje AI
Mocniejszy w domenie
niż ogólny asystent z abonamentu
wiele
umysłów AI pracuje nad jedną odpowiedzią
jedna
pewna odpowiedź, nie kilka sprzecznych
100%
lokalnie - Twoje dane nie wychodzą na zewnątrz
ślad
pod każdą liczbą - wiadomo, skąd wynik
Jak to działa

Po ludzku, w trzech krokach

Pojedynczy model AI potrafi dać różne odpowiedzi przy drobnej zmianie pytania. VEE rozwiązuje to inaczej: pyta wiele modeli naraz, sprawdza ich odpowiedzi prawdziwym obliczeniem i składa z tego jedną, pewną odpowiedź.

Wiele umysłów AI naraz

Twoje pytanie trafia nie do jednego modelu, lecz do wielu modeli AI pracujących równolegle. Każdy podchodzi do problemu po swojemu, więc słabe i przypadkowe odpowiedzi od razu się ujawniają.

Uziemienie prawdziwym obliczeniem

VEE zestawia propozycje modeli i sprawdza je deterministycznym solverem oraz normami ze źródła. Liczby liczy silnik obliczeniowy, a nie zgaduje model. To odcina halucynacje.

Jedna pewna super-odpowiedź

Na wyjściu dostajesz jedną, zweryfikowaną odpowiedź wraz ze śladem, czym dokładnie została policzona. Nie kilka sprzecznych wariantów do oceny, lecz wynik, któremu można zaufać.

Dla kogo i po co

Dla inżyniera, który potrzebuje odpowiedzi godnej zaufania

VEE jest pomyślane dla profesjonalisty, który podejmuje decyzje na podstawie wyników i nie może pozwolić sobie na zgadywanie. Dziś pierwszym obszarem jest wiertnictwo i przewierty HDD; docelowo to ogólnoinżynierski ekspert w walizce.

Schemat przepływów

Jak płyną impulsy przez system

Pytanie wchodzi z zewnątrz, orkiestrator rozdziela je między drafterów, deterministyczny solver liczy prawdę, weryfikatorzy sprawdzają, a synteza odsyła odpowiedź ze śladem - cała maszyneria zamknięta w jednej maszynie.

JEDNA SUWERENNA MASZYNA - dane nie wychodzą pytanie -> <- odpowiedź ze śladem Aplikacja klienta API / wtyczka HDDSuite VEE orkiestrator qwen3.6 35b-a3b · drafter gemma4 31b · drafter mistral-small 24b · drafter DRAFTERZY SOLVER POLICZ ∑ PRAWDA phi4 14b · weryfikator gemma4 26b · weryfikator qwen-coder weryfikator WERYFIKATORZY gpt-oss:20b synteza · final
drafter solver (prawda) weryfikator synteza
Koncept

Jeden ekspert, w środku rój

VEE to nie czat z modelem. To zamknięty, suwerenny silnik ekspercki: na jednej maszynie żyje orkiestrator klasy Kimi (replikacja Abiego), a pod nim rój modeli roboczych. Orkiestrator rozkłada zadanie, rozdziela je w roju, a prawdę bierze z deterministycznego solvera i ze źródeł - nie z „pamięci" modelu.

Silnik LICZY, AI ubiera.

Orkiestrator definiuje zadanie → rój modeli rozumuje równolegle → solver liczy → weryfikator powtarza obliczenie → strażnik wyrzuca każdą liczbę bez pokrycia. Na wyjściu: odpowiedź eksperta z pełnym śladem, czym dokładnie została policzona. Całość w jednej obudowie - model klienta nie opuszcza jego maszyny.

Każda liczba ma ślad do solvera, każda norma - do źródła.

To jest „moat" Enginetrica: anti-halucynacja jako produkt klasy Enterprise. Audytowalność i suwerenność, których czyste modele językowe nie dają.

Architektura

Warstwy jednej maszyny

Wszystko zamknięte w jednej obudowie - od warstwy rozumowania, przez rój, po uziemienie w prawdzie.

  • 1Orkiestrator (klasa Kimi). Replikacja Abiego - warstwa kontrolna. Rozumie zadanie, planuje, rozdziela pracę, robi finalne QA i pilnuje fortecy. To z nim „rozmawia" użytkownik.
  • 2Rój modeli roboczych (do kilkunastu). Qweny lub pokrewne - drafterzy, weryfikatorzy, strażnicy. Liczą równolegle, głosują, kontrują się nawzajem.
  • 3Uziemienie w prawdzie. Deterministyczny solver (Rust HDDSuite) liczy fizykę, retrieval podaje normy ze źródła. Tu rodzi się fakt, nie w modelu.
  • 4Suwerenność. Jedna maszyna, modele i dane zamknięte lokalnie. Nic nie wychodzi na zewnątrz - naturalne dla zastosowań Enterprise.
JEDNA SUWERENNA MASZYNA ORKIESTRATOR · VEE klasa Kimi - replikacja Abiego RÓJ MODELI ROBOCZYCH QQQQQ... SOLVER ∑ deterministyczna fizyka RETRIEVAL normy ze źródła
Konfiguracje

Układy, które uruchamiamy i badamy

Każda konfiguracja to inny sposób spięcia roju i narzędzi. Testujemy je po kolei i mierzymy, czy realnie podnoszą jakość - czy tylko spalają moc.

Łańcuch 3 ról

Drafter → weryfikator → strażnik na jednym modelu (qwen3.6:35b-a3b) - trzy system-prompty, łańcuch szeregowy. Strażnik realnie koryguje draft.

Rdzeń

Self-consistency

N drafterów liczy niezależnie, bierzemy medianę liczb. Tłumi pojedyncze wpadki - ale nie naprawia błędu wspólnego dla wszystkich.

Głosowanie
⟨/⟩

Tryb kodowy

Role przełączone na programistyczne (autor → reviewer → integrator), głosowanie wyłączone. Produkuje kompletny, uruchamialny kod - nie urywki.

Zweryfikowany ✓

Most do solvera

Rój nie zgaduje fizyki - woła deterministyczny solver Rust: frac-out, hydraulika, balastowanie, dopasowania reologiczne. Każdy wynik ze śladem.

Działa ✓
📚

Retrieval norm

Każda norma/wartość tablicowa cytowana ze źródła z korpusu, zamiast „pamięci" modelu. Następny element uziemienia.

W budowie

Skalowanie roju

Mocniejszy sprzęt → więcej instancji → warstwy równoległe biegną naprawdę równolegle, orkiestrator rozdziela zadania na wolne modele.

Roadmap
Skalowanie sprzętu

Rój na jednym, dwóch i czterech Blackwellach

Jednostka mocy to jeden Blackwell - 96 GB pamięci karty (nasz dzisiejszy węzeł). Im więcej kart, tym więcej różnych rodzin modeli pracuje NAPRAWDĘ równolegle i tym większy orkiestrator stać nas utrzymać na własnym sprzęcie, bez chmury. Trzy rozwiązania teoretyczne - poprawność na każdym z nich pilnuje ten sam solver.

1× Blackwell · 96 GB

Solista uziemiony. Jeden mocny model (qwen3.6:35b-a3b) niesie cały łańcuch, różnorodność dokładają 1-2 mniejsze rodziny, a poprawność dźwiga solver.

Dowód: solista + solver = 0,945 na inżynierii HDD - parytet z całym panelem. Suwerennie i tanio na jednej karcie.

Zmierzone ✓

2× Blackwell · 192 GB

Rada heterogeniczna. Rój rozbity po rolach na dwie karty: drafterzy i synteza na jednej, trzy soczewki weryfikacji (Gemma + Mistral + Phi) na drugiej.

Zysk: panel weryfikatorów biegnie realnie równolegle, różne rodziny naraz - lekarstwo na skorelowane błędy. To pełny rada-solver na sprzęcie.

Projekt

4× Blackwell · 384 GB

VEE pełny. Stać nas na duży orkiestrator klasy Kimi na WŁASNYM węźle (NVFP4) + osobna pamięć na drafterów i weryfikatorów + router + obsługa wielu zapytań naraz.

Zysk: koniec zależności od chmury, dane nie wychodzą z maszyny. Docelowe „jedna maszyna, zamknięte modele, jeden orkiestrator".

Cel

Zasada wspólna Na każdym tierze silnik LICZY, AI ubiera - liczby zawsze z solvera, nigdy z „pamięci" modelu. Throughput i jakość NVFP4 to teoria do zmierzenia baterią, nie obietnica.

Topologie

Cztery koncepcje spięcia modeli

Każda topologia to inny pomysł na to, który model rozmawia z którym i po co. Testujemy je po kolei na tej samej baterii pytań i wybieramy najlepszą pod HDDSuite - tę, która najpewniej łapie błąd i najmocniej kotwiczy się w prawdzie solvera.

T1 · Grounded-panel

Spięcie: 3 drafterzy różnych rodzin równolegle (qwen3.6 + gemma4:31b + mistral) -> SOLVER -> 3 weryfikatorzy o różnych soczewkach (phi4 jednostki + gemma4:26b fizyka + qwen-coder wzór) -> synteza gpt-oss.

Dlaczego: Różnorodność rodzin rozbija skorelowane błędy, solver dokłada prawdę. Live: panel złapał niebezpieczny błąd jednego modelu.

Zrobione i przetestowane ✓

T2 · Deep-verify

Spięcie: 1 mocny drafter (gemma4:31b) -> SOLVER -> szeregowy łańcuch weryfikatorów (qwen-coder -> gemma4:26b -> qwen3.6), każdy widzi poprawki poprzednika -> synteza.

Dlaczego: Sekwencyjne pogłębianie zamiast równoległego rozproszenia. Mniej modeli, więcej przejść. Test: czy głębia bije szerokość.

Do testów

T3 · Solver-first

Spięcie: SOLVER liczy najpierw -> jeden model ubiera wynik w prozę -> jeden weryfikator sprawdza zgodność ze solverem.

Dlaczego: Dla pytań ilościowych: minimalny model, maksymalny solver. Najszybsze i najmocniej zakotwiczone w prawdzie. Czysta forma „silnik LICZY, AI ubiera".

Do testów

T4 · Tournament

Spięcie: N drafterów różnych rodzin rozwiązuje niezależnie -> solver jako arbiter liczb -> panel sędziów ocenia każdą całość -> wybór NAJLEPSZEJ + zaszczepienie najlepszych fragmentów.

Dlaczego: Selekcja najlepszej odpowiedzi zamiast uśredniania. Wybrałby model poprawny zamiast mieszać go z błędnym.

Do testów

T5 · Router (później): orkiestrator klasyfikuje pytanie i kieruje do najlepszej sub-topologii - najbardziej „VEE".

Testy - dobra czy zła koncepcja?

Co dziś wiemy z twardych liczb

Tu trzymamy werdykty. Nie „wydaje się" - tylko zmierzone. Zakładki pokazują kolejne testy i to, czy dany kierunek potwierdził się, czy upadł.

✓ Teza potwierdzona na żywo

Heterogeniczny panel złapał niebezpieczny błąd

Pytanie frac-out, 7 rodzin modeli na żywo (~1m46s). Solver = prawda odniesienia: ryzyko „fracout".
mistral-small (1 model)
BŁĄD
gemma4:31b (drafter)
OK
weryfikator-fizyk
złapał
synteza (finał)
OK
mistral-small orzekł „brak ryzyka, bezpiecznie" (zignorował granicę płynięcia) - pojedynczy model wprowadziłby wiertnika w błąd. Weryfikator innej rodziny (gemma4:26b) to wychwycił, a synteza dała poprawny finał.

Zgodność z solverem (ground truth)

Finał VEE vs deterministyczny solver HDDSuite.
Solver - ciśnienie całkowite118,8 kPa
VEE synteza - ciśnienie≈ 118 kPa
Solver - werdyktfracout
VEE - werdyktryzyko wysokie
7 rodzin modelitopologia grounded-panelsolver grounding
✓ Koncepcja potwierdzona

Most rój → solver działa

Rój przestaje zgadywać fizykę - woła deterministyczny solver Rust. Zamiast liczby z modelu: liczba z kodu, ze śladem.
frac-out (przebicie)
OK
hydraulika rury
OK
walidacja braków
OK
obsługa błędu
OK
Testy mostu: 4/4 zaliczone. To zwrot z benchmarku v1 - zamiast „więcej modeli", prawda spoza modelu.

Realne liczby z solvera

Nie z modelu - z deterministycznego kodu.
Frac-out - ratio1.12
Frac-out - p_frac0.084 MPa
Frac-out - margines-0.010
Hydraulika - ΔP1.574 bar
Hydraulika - moc pompy3.15 kW
determinizmślad pod liczbąrola „POLICZ"
~ Poniżej progu - kierunek do zmiany

Rój vs pojedynczy model

Rubryka 8 pytań (wiertnictwo / reologia / mikrotunelowanie), skala 0-96. Próg sukcesu z góry: +6 nad baseline.
Pojedynczy model
81
VEE (rój)
próg 87
85
Rój dał +4 (85 vs 81), a próg wynosił +6 (87). Do tego na czystym teście odporności pojawiła się regresja - strażnik wkleił zmyśloną normę.
✗ Sam rój nie wystarcza

Twardy wniosek

Najważniejsza lekcja całego projektu.

Jakości nie da się dołożyć liczbą modeli. Model ręczący za model nie naprawia wspólnego błędu, a głosowanie nie pomaga. Trzeba dołożyć prawdę spoza modelu - solver i retrieval.

To dlatego zbudowaliśmy most do solvera. Benchmark v2 sprawdzi rój z solverem - próg: brak halucynacji rośnie ORAZ ΔSuma ≥ +6.
✓ Działa na jasnej specyfikacji

Produkcja kodu trybem --code

Zadanie: samodzielny kalkulator HTML (siły przeciskowe mikrotunelowania). Sprawdzian: czy rój złapie, że siła od długości jest LINIOWA, nie wykładnicza.
Kompletny kod
Fizyka poprawna
Bez pułapki wykł.
Pierwszy strzał
Rój (~36 s) wyprodukował 281 linii używalnego HTML ze wzorem liniowym F = F_czoło + μ·π·D·L·σ - tam, gdzie benchmark Q&A poległ.

Dlaczego tu poszło lepiej

Inny obraz niż Q&A (+4 < próg).

Przy generacji kodu z dobrą specyfikacją drafter ma mniej miejsca na konfabulację, a reviewer łapie realne bugi. Wniosek: rój jest mocny tam, gdzie zadanie jest jednoznaczne - i tam ma odciążać.

jasna specreviewer = realny zyskbez iteracji
Kierunek: uziemienie w prawdzie

Co potwierdziły testy - w jednym miejscu

Stan na dziś, bez upiększania.
⌬ Sam rój modeli (więcej głosów / ról)✗ za mało
⟨/⟩ Tryb kodowy na jasnej spec✓ dobra
⚙ Most do deterministycznego solvera✓ dobra
📚 Retrieval norm ze źródła~ w budowie
⇶ Skalowanie na więcej instancji~ roadmap
Sedno: wartość nie rodzi się z liczby modeli, tylko z prawdy spoza modelu. Dlatego ciężar VEE jest na uziemieniu - solver i retrieval jako źródła faktu, rój jako warstwa rozumowania, orkiestrator jako kontrola.

To dziennik drogi do super-eksperta.

VEE jest w testach. Ta strona aktualizuje się przy każdym kroku: nowa konfiguracja, nowy benchmark, nowy werdykt - dobra koncepcja czy ślepa uliczka. Bez upiększania, z liczbami.

Faza 1 - pre-alfa

Most do solvera działa. Następne: solver jako rola „POLICZ" w łańcuchu, retrieval norm, benchmark v2 z twardym progiem, dobór orkiestratora.