Begeleiding bij lokale AI — hardware en modellen

Wat we wel en niet doen

We begeleiden je bij het opzetten van lokale AI in eigen huis. Welke hardware kies je, welk model past bij wat je wil doen, hoe zet je het neer, en hoe koppel je het aan wat je al hebt. Pure advies en sparring — wij komen langs of zitten online aan tafel, jullie doen het werk.

Wat we niet doen: we verkopen geen hardware. We installeren niets. We bouwen het AI-systeem niet voor je. Daarvoor is er Bouwen, maar als je een team hebt dat het zelf wil doen, is dat hier verkeerd besteed geld.

Geen partner-kortingen die we doorberekenen, geen affiliate-fees op een GPU die we aanraden, geen abonnement dat doorloopt nadat je er bent. Je betaalt voor uren waarop wij meedenken — verder niets.

Hoe het werkt

Twee ritmes, allebei flexibel.

Losse dagen. Je boekt een halve of hele dag voor een specifieke vraag. Bijvoorbeeld: "we willen een GPU-server kopen, kom mee kijken naar de keuze." Of: "we lopen vast op het integreren van n8n met onze Exact-koppeling, kunnen we daar een dag op zitten." Heldere afgekaderde sessie, faktuur erna.

Vast traject. Je hebt een groter project (van nul naar werkende lokale AI-omgeving bijvoorbeeld) en wilt iemand die de hele rit meedenkt. Dan spreken we een aantal uren af gespreid over een paar maanden — bijvoorbeeld 30 uur over drie maanden, met huiswerk ertussen. Cadans en vorm leg je zelf vast: wekelijks online, eens per maand op locatie, of een combinatie.

Allebei op uurbasis. Geen abonnement, geen minimum-afname. Stop wanneer je klaar bent.

Wat we typisch begeleiden

Vijf onderwerpen waar we vaak op zitten.

Hardware-keuze. Welke GPU heb je nodig, welke niet. Wat is genoeg voor wat je wil doen, en waar krijg je later spijt van. Verschil tussen een €1.500-workstation en een €15.000-server, en in welk geval je welke moet hebben. We rekenen het door op basis van de modellen die je wilt draaien — niet op basis van wat het meeste oplevert voor een leverancier.

Model-keuze. Llama, Mistral, Qwen, of iets specialistischer. Welke modelgrootte past op jouw GPU, hoe ver kun je gaan met kwantisatie zonder kwaliteit te verliezen, welke embeddings-modellen zijn geschikt voor Nederlandstalige documenten. We helpen kiezen en testen op jullie use-case.

Lokale inference-stack. Ollama, vLLM, llama.cpp, of n8n als orchestrator. Wat is het verschil, wanneer gebruik je wat. Hoe stel je het in zodat het stabiel blijft draaien, hoe monitor je het, wat doe je als het traag wordt.

Integratie en koppelingen. Hoe sluit je een lokale AI-stack aan op M365, Exact, Sharepoint, een eigen database. Welke afwegingen maak je voor authenticatie, AVG, en logging. Geen kant-en-klaar antwoord — meer een samen-doorrekenen.

Sparring tijdens implementatie. Je hebt een ontwikkelaar die zelf bouwt en wil af en toe een second opinion. Code-review op de AI-componenten, architectuurvragen, "is dit een goede aanpak voor probleem X." Op uurbasis, geen vaste cadans nodig.

Onze tech-keuzes

Wat we adviseren komt uit wat we zelf gebruiken — geen theorie, geen brochures.

Lokale LLM's (Llama, Mistral, Qwen) draaiend via Ollama of vLLM. Voor de meeste MKB-use-cases ruim voldoende, en het draait op hardware die je zelf in beheer hebt.

n8n als visuele orchestrator voor flows. Open-source, draait op jouw server, en je IT'er kan later zelfstandig aanpassingen doen.

pgvector in Postgres voor RAG. Saai, betrouwbaar, geen aparte vector-database die onderhouden moet worden.

Alles draait op hardware in eigen huis of op een eigen VPS bij een Europese provider (Hetzner of vergelijkbaar). Geen AWS, geen Azure — die clouds adviseren we niet en we hebben er ook geen ervaring mee. Voor wie dat wel wil: er zijn andere consultants. Voor wie lokaal en open wil blijven: dan zijn we de juiste.

Voor wie dit past

Je hebt een ontwikkelaar, IT'er, of tech-savvy medewerker die het werk zelf wil doen
Jullie willen eigenaar blijven van de hele stack — geen managed service, geen vendor lock-in
Je hebt al een richting (bv. uit een scan-rapport) of weet zelf wat je wilt bouwen
Je waardeert second opinion meer dan compleet ontzorgd worden
Je vindt het oké om in eigen tempo te werken — geen strakke deadline van ons

Voor wie dit niet past

Je hebt geen technische capaciteit in huis en wilt ontzorgd worden — kijk naar Bouwen
Je weet nog niet waar AI in jouw bedrijf zou helpen — begin dan met de scan
Je wilt dat we hardware leveren, installeren, of beheren — wij doen alleen de adviesrol
Je zoekt een partner die de hele AI-strategie voor je rijdt — wij zijn een specialist, geen integrator

Prijs en voorwaarden

€120 per uur ex btw, vanaf. Bij weekend, avond of spoed €180 per uur. We melden dat altijd vooraf.

Geen minimum-afname. Een halve dag mag, een vol traject mag, daartussenin mag ook. Stop wanneer je klaar bent.

Reiskosten zoals bij de scan: €0,32 per km, gerekend vanaf de 50e kilometer uit Waalwijk. Binnen 50 km gratis. Online sessies natuurlijk geen reiskosten.

Facturatie per maand op nacalculatie, betalingstermijn 14 dagen. Op het overzicht zie je per dag waar de uren naartoe zijn gegaan en op welke vraag.

Geen hardware-marges. We krijgen geen kortingen of affiliate-fees doorgeschoven van leveranciers — als we Hetzner of een specifieke GPU aanraden, is dat omdat we die geschikt vinden, niet omdat er iets aan blijft hangen.

Stoppen kan altijd. Lopende sessie maken we af, daarna geen verplichting verder.

Veelgestelde vragen

Helpen jullie met de inkoop van hardware?
Niet als tussenpersoon. We adviseren wat te kopen en bij welk type leverancier, maar de bestelling doet jouw inkoop zelf. Geen marges, geen complexiteit.

Komen jullie ook installeren of beheren?
Nee. Het opzetten van het OS, de drivers, het netwerk, de firewall — dat doet jullie IT-er of jullie systeembeheerder. Wij adviseren wel hoe dat het beste kan, en als jullie ergens vastlopen kunnen we erbij komen zitten.

Wat kost een typische lokale AI-setup aan hardware?
Heel afhankelijk van wat je wilt draaien. Een chatbot op een paar honderd documenten kan op een workstation van €2k–€5k. Voor zwaardere modellen (70B-class, of veel parallelle gebruikers) zit je sneller op een server van €10k–€25k. We rekenen jouw geval altijd door voordat je iets aanschaft.

Welk model raden jullie aan?
Hangt af van wat het moet doen, in welke taal, en op wat voor hardware. Voor Nederlandstalige documenten met gemiddelde zwaarte werkt een 8B–14B model vaak prima. Voor meer veeleisende redenering pak je een 32B of 70B-model — en dan moet de hardware mee. We testen mee op jullie eigen voorbeelden voordat we kiezen.

Wat als ik tussen twee sessies vastloop?
Even mailen of bellen. Korte vragen beantwoorden we kosteloos, ook als er geen sessie gepland staat. Als er meer aan de hand is plannen we een extra uur of een halve dag in.

Doen jullie ook training voor een groep?
Op verzoek. Geen kant-en-klare workshop met 80 slides — meer een dag waarin we met je team de keuzes en de stack doorlopen, met genoeg ruimte voor jullie eigen vragen. Op uurbasis zoals al het andere.

Lokaal