Verdict achat en 20 secondes
Si je devais monter un PC pour les LLM locaux aujourd'hui, je partirais sur RTX 3090 24 Go d'occasion propre ou RTX 4090 24 Go neuve, 64 Go DDR5-6000 CL30 EXPO, SSD NVMe 2 To, Ryzen 7 sobre, alim 850W Gold et un Lian Li LANCOOL 216.
La raison est simple : pour les modeles locaux, la VRAM compte plus que le RGB, plus que le CPU extreme, et souvent plus que la generation exacte de la carte. Le PC doit charger le modele, garder du contexte, rester stable et ne pas transformer chaque prompt en test de patience.
Liens Amazon affilies. Verifiez prix, vendeur, dimensions, garantie et compatibilite avant achat.
La promesse de cette config
Le but n'est pas de monter un PC gaming avec deux liens IA colles dessus. Le but est de choisir les pieces qui changent vraiment l'experience LLM locale : assez de VRAM pour charger les bons modeles, assez de RAM pour l'offload et le RAG, un SSD qui ne sature pas au bout de trois tests, et une alimentation qui tient une carte haut de gamme sans stress.
La question a laquelle cette page repond est simple : quoi acheter si je veux faire tourner des modeles locaux serieusement en 2026 ?
La config recommandee
| Piece | Choix recommande | Pourquoi pour les LLM | Lien achat |
|---|---|---|---|
| GPU | RTX 3090 24 Go ou RTX 4090 24 Go | 24 Go de VRAM debloquent les 32B Q4 et beaucoup plus de marge que 12/16 Go. | Voir RTX 3090 |
| CPU | Ryzen 7 7700 / 9700X | Assez de coeurs pour l'OS, l'offload, les outils dev et le RAG sans surpayer. | Voir CPU |
| RAM | G.Skill Flare X5 / Trident Z5 Neo 64 Go DDR5-6000 CL30 EXPO, 128 Go si budget | Kit plus coherent pour AM5 : gros contexte, offload CPU, embeddings, navigateur, IDE, Docker. | Voir G.Skill 64 Go |
| SSD | NVMe 2 To Gen4 | Les modeles, caches, datasets et environnements Python prennent vite de la place. | Voir SSD |
| Alim | 850W Gold minimum | RTX 3090/4090 demandent une alimentation stable, pas juste "assez de watts". | Voir alim |
| Boitier | Lian Li LANCOOL 216, LANCOOL 207 si format plus compact | Airflow solide, ventilateurs inclus, place pour grosses cartes, prix plus raisonnable que les boitiers vitrine. | Voir LANCOOL 216 |
Modeles locaux valides sur cette config
Pour rendre l'article plus utile que les guides generiques, voici la liste des modeles que je considererais comme "valides" pour ce type de PC. Valide ne veut pas dire "toujours parfait a 200 tok/s" : ca veut dire chargeable, exploitable, et coherent avec une machine 24 Go VRAM + 64 Go RAM.
| Modele | Format conseille | RTX 3090 24 Go | Usage ideal |
|---|---|---|---|
| Hermes 3 / Nous Hermes | 8B, 14B ou 70B quantifie | 8B/14B tres fluide, 70B avec compromis | assistant local, roleplay propre, agent perso, reponses moins froides |
| Qwen 2.5 / Qwen 3 Coder | 7B, 14B, 32B Q4 | 32B Q4 tres interessant | code, scripts, refactor, raisonnement technique |
| DeepSeek Coder / R1 distill | 7B, 14B, 32B Q4 | bon palier en 32B | debug, explication code, taches agentiques |
| Llama 3.1 / 3.3 | 8B, 70B quantifie | 8B tres fluide, 70B possible | assistant generaliste, redaction, resume long |
| Mistral Small / Nemo / Mixtral | 12B, 22B, 8x7B quantifie | bon confort selon quantification | francais, RAG, documents, usage quotidien |
| Phi / Gemma | mini et 7B-12B | instantane | petites taches rapides, extraction, classification locale |
| Codestral | 22B quantifie | bon si quantification adaptee | completion code, analyse repo, scripts |
| OpenHermes / Dolphin | 7B-13B | tres fluide | experimentation, assistants moins censes, agents locaux |
Pourquoi parler de Hermes ?
Hermes est exactement le genre de modele qui rend un PC LLM local interessant. Pas seulement parce qu'il tourne en local, mais parce qu'il donne une sensation d'assistant personnel : plus souple, plus conversationnel, plus facile a brancher sur un RAG prive ou une memoire locale.
Pour un usage OutilsIA, je le mettrais dans la categorie "assistant local de travail" : notes, documents, idees, code leger, reformulation, analyse de contexte. Sur une config 24 Go VRAM, tu peux tester les variantes legeres tres vite et garder les plus gros modeles pour les taches ou la qualite compte plus que la vitesse.
Panier Amazon par niveau de modele
Pour augmenter les clics sans casser la confiance, le bon bloc n'est pas "voir le prix". C'est "je veux faire tourner tel niveau de modele, donc j'achete cette piece".
| Objectif | Achat conseille | A eviter | Lien |
|---|---|---|---|
| Hermes / Qwen 8B tres rapide | RTX 3060 12 Go ou mieux | GPU 6-8 Go comme machine principale | Voir RTX 3060 12 Go |
| Qwen / DeepSeek / Mistral 14B confortable | RTX 4060 Ti 16 Go ou RTX 4070 Ti Super 16 Go | RTX 4060 8 Go | Voir 16 Go VRAM |
| 32B Q4 serieux | RTX 3090 24 Go | 12 Go si usage principal | Voir RTX 3090 |
| 70B quantifie / gros RAG | RTX 4090 24 Go + 128 Go RAM, ou double GPU plus tard | PC compact mal ventile | Voir setup 70B |
| Machine silencieuse mais serieuse | Mac Studio / Mac Mini haute memoire | Mac 16 Go pour gros LLM | Voir Mac haute memoire |
Carte visuelle des performances attendues
Hermes, Llama, Gemma, Phi pour assistant rapide.
Bon compromis qualite/vitesse sur 16-24 Go VRAM.
Qwen, DeepSeek, Mistral : la raison d'acheter 24 Go.
Possible, mais quantification/offload et patience necessaires.
Ce que cette machine fait vraiment tourner
Les chiffres ci-dessous sont des ordres de grandeur prudents pour une machine locale bien configuree sous Ollama, LM Studio ou llama.cpp. Les vitesses exactes changent selon le modele, la quantification, le contexte, le backend, les drivers et le refroidissement.
| Famille de modele | RTX 3090 24 Go | RTX 4090 24 Go | Confort reel |
|---|---|---|---|
| 7B / 8B Q5-Q8 | tres fluide | tres fluide | chat, code leger, assistant perso |
| 14B Q4-Q6 | fluide | tres fluide | redaction, analyse, dev quotidien |
| 27B / 32B Q4 | bon palier | excellent | coding, raisonnement, RAG plus serieux |
| 70B quantifie | possible avec compromis | possible avec compromis | qualite superieure, vitesse plus lente |
| Image / Flux / SDXL | bon | excellent | generation locale + LLM sur la meme tour |
La regle simple : VRAM d'abord
Un PC avec une carte recente mais seulement 8 Go de VRAM peut etre un excellent PC gaming et un PC LLM frustrant. Un PC avec 24 Go de VRAM, meme sur une carte plus ancienne, donne plus de marge pour charger des modeles utiles.
La hierarchie pratique pour l'IA locale ressemble a ca : 8 Go = debuter, 12 Go = utile, 16 Go = confortable, 24 Go = serieux, 48 Go+ = gros modeles.
RTX 3090 ou RTX 4090 ?
La RTX 4090 est meilleure : plus rapide, plus efficace, plus recente. Mais pour beaucoup de builders LLM, la RTX 3090 reste une anomalie interessante : elle garde 24 Go de VRAM a un prix qui peut etre beaucoup plus bas en occasion.
Mon verdict : si tu veux le meilleur rapport capacite/prix, vise une 3090 propre. Si tu veux une machine principale silencieuse, rapide, stable, et que le budget suit, prends une 4090.
Ce que j'eviterais
- RTX 4060 8 Go pour une machine LLM principale : trop vite limitee.
- 32 Go RAM seulement sur un build a 2000 euros : c'est dommage, 64 Go est plus coherent.
- SSD 1 To si tu comptes tester beaucoup de modeles : ca se remplit vite.
- Alim no-name avec RTX 3090/4090 : mauvais endroit pour economiser.
- Boitier vitrine ferme : beau, mais souvent mauvais pour une carte chaude.
Panier rapide
Si tu veux commander sans tout relire, le panier prioritaire est : GPU 24 Go, G.Skill 64 Go DDR5-6000 CL30 EXPO, SSD 2 To, alim 850W Gold, Lian Li LANCOOL 216. Le CPU vient apres.
Amazon affiche parfois plusieurs vendeurs et variantes. Ne prenez pas une reference sans verifier VRAM, dimensions, garantie et avis vendeur.
Sources et limites
Les recommandations ci-dessus restent des choix d'achat pratiques, pas des promesses de benchmark universelles. Les performances varient selon le modele, la quantification, le contexte, les drivers, le refroidissement et le backend utilise.
- NVIDIA explique l'usage des LLM locaux sur PC RTX avec Ollama, AnythingLLM et LM Studio : guide RTX AI Garage.
- SitePoint rappelle que la VRAM utilisable est inferieure a la VRAM affichee et donne des plages de debit pour 10 Go utiles : guide 10GB VRAM local LLM.
- SitePoint resume aussi le workflow local moderne : verifier RAM/VRAM, installer Ollama ou LM Studio, puis choisir le modele adapte : guide local LLM 2026.
- Cline donne un bon reality check sur les tres gros modeles et les compromis necessaires en local : Local LLM reality check.
FAQ rapide
Est-ce que cette config remplace ChatGPT ou Claude ?
Non, pas totalement. Elle donne un assistant prive, local, sans abonnement par token, excellent pour documents, code, tests et workflows. Les meilleurs modeles cloud gardent souvent l'avantage sur certains raisonnements lourds.
Faut-il deux GPU ?
Pas pour commencer. Deux GPU compliquent l'alim, le boitier, la chaleur et le logiciel. Une seule bonne carte 24 Go est le meilleur point de depart.
Le Mac Mini M4 est-il une alternative ?
Oui si tu veux silence, faible consommation et memoire unifiee. Mais pour CUDA, Stable Diffusion, certains outils dev et le meilleur rapport perf brute, le PC NVIDIA garde un gros avantage.