RTX 3090 + Qwen 3.6 + Hermes : le combo IA locale 24 Go VRAM
Si vous voulez une machine IA locale sérieuse sans payer une RTX 4090 neuve, la RTX 3090 24 Go reste le deal le plus intéressant : assez de VRAM pour Qwen 32B, Hermes, beaucoup de modèles 14B/27B, et même Qwen 3.6 35B-A3B en quantifié avec les bons compromis.
Réponse courte
Est-ce qu'une RTX 3090 suffit pour Qwen 3.6 et Hermes ?
Oui, mais il faut séparer les cas. Une RTX 3090 24 Go est excellente pour Qwen 3 32B / Qwen Coder 32B en Q4, très confortable pour Hermes 3 8B et les modèles 14B, et intéressante pour Qwen 3.6 35B-A3B en quantification agressive. Pour du Q8, long contexte massif ou batch lourd, il faut plus de mémoire : 2x RTX 3090, Mac 48/64 Go, ou serveur.
Verdict achat en 20 secondes
Pourquoi la RTX 3090 reste spéciale en IA locale
La RTX 3090 est vieille côté gaming, mais elle a une chose que beaucoup de cartes modernes n'ont pas : 24 Go de VRAM. En IA locale, cette mémoire change tout. Elle permet de charger des modèles 32B quantifiés, de garder plus de contexte, d'éviter les erreurs “out of memory”, et de travailler avec des workflows Ollama, LM Studio, llama.cpp ou vLLM plus ambitieux.
Une RTX 4070 Ti Super 16 Go est plus récente et sobre, mais elle ne remplace pas 24 Go quand la question est : “est-ce que mon modèle rentre ?”. Pour Qwen et Hermes, la priorité d'achat est souvent VRAM d'abord, vitesse ensuite.
Quels modèles faire tourner ?
| Modèle | RTX 3090 24 Go | Usage conseillé | Commentaire |
|---|---|---|---|
| Hermes 3 8B | Très confortable | Assistant local, persona, agents simples | Rapide, léger, bon pour tester des workflows. |
| Nous Hermes 2 Mixtral 8x7B | Possible en Q4 | Créatif, conversation, agent multi-expert | Plus lourd, mais intéressant en 24 Go. |
| Qwen 3 14B | Très confortable | Chat, résumé, code léger | Bon compromis qualité/vitesse. |
| Qwen 3 32B / Qwen Coder 32B | Excellent en Q4 | Code local, agents, analyse de repo | Le vrai sweet spot d'une RTX 3090. |
| Qwen 3.6 35B-A3B | Possible mais serré | Agentic coding, frontend, repo reasoning | 35B total, 3B actifs, mais les poids doivent quand même tenir. |
| 70B Q4 | Partiel / lent / CPU offload | Tests ponctuels | Pour du confort, viser 48 Go VRAM ou mémoire unifiée. |
Qwen 3.6 : pourquoi c'est excitant
Qwen indique que Qwen3.6-35B-A3B est le premier variant open-weight de la série Qwen 3.6. La fiche Hugging Face annonce un modèle multimodal avec 35B paramètres au total, 3B activés, un contexte natif de 262 144 tokens extensible jusqu'à environ 1 010 000 tokens, et des améliorations fortes en agentic coding, raisonnement sur dépôt et workflows frontend.
Pour nous, l'important n'est pas de vendre du rêve : c'est de dire si ça rentre sur une machine de particulier. La réponse honnête : Qwen 3.6 35B-A3B est plus accessible qu'un dense 70B, mais ce n'est pas un petit 7B. Sur RTX 3090, il faut quantifier, réduire le contexte, et accepter que l'expérience dépende beaucoup de la build llama.cpp/LM Studio/vLLM et de la quantization disponible.
Hermes : pourquoi le garder dans la stack
Hermes 3 n'est pas seulement un modèle “chat”. Nous Research le présente comme un modèle avec rétention de contexte long terme, conversation multi-tour, roleplay complexe, monologue interne et function calling agentique. Il a été fine-tuné depuis Llama 3.1 en 8B, 70B et 405B.
Dans une machine locale, Hermes est utile comme modèle de persona, d'agent domestique, d'assistant de rédaction, de mémoire personnelle ou de copilote qui suit mieux un style. Qwen est souvent meilleur pour le code et le raisonnement technique ; Hermes est intéressant pour transformer une machine locale en assistant durable, surtout avec MemoryForge, Obsidian ou un RAG local.
Commandes de départ
Pour démarrer proprement, commencez avec les modèles qui rentrent largement, puis montez en taille.
# Rapide et stable
ollama run qwen3:14b
# Gros modèle code sur 24 Go
ollama run qwen3:32b
# Hermes / agent local selon votre registry Ollama
ollama run adrienbrault/nous-hermes2theta-llama3-8b:q4
# Qwen 3.6 : privilégier LM Studio / llama.cpp / vLLM selon quantization disponible
# Chercher : Qwen/Qwen3.6-35B-A3B GGUF ou quantizations compatibles
Panier recommandé
La RTX 3090 ne se choisit pas seule. Une carte 350W mal alimentée ou étouffée dans un boîtier fermé devient bruyante, chaude, puis pénible au quotidien.
Simple RTX 3090 ou dual RTX 3090 ?
Une seule RTX 3090 est le meilleur point d'entrée 24 Go. Deux RTX 3090 donnent 48 Go cumulés, mais ce n'est pas magique : il faut une carte mère adaptée, assez de lignes PCIe, un boîtier énorme, une alimentation solide, et une stack qui sait répartir le modèle.
Le dual 3090 devient intéressant si vous voulez vraiment tester des 70B quantifiés, du multi-modèle, ou faire tourner un serveur local avec plusieurs utilisateurs. Pour un premier achat IA locale, commencez par une seule carte propre.
Ce que je mettrais dans une config Qwen/Hermes
- GPU : RTX 3090 24 Go si budget malin, RTX 4090 si vous voulez moins de bruit et plus de vitesse.
- RAM : 64 Go minimum, 128 Go si vous faites RAG, gros index, Docker, IDE et navigateur en même temps.
- SSD : NVMe 2 To, parce que les modèles, datasets et caches explosent vite.
- Alim : 1000W Gold modulaire pour éviter de bricoler.
- Boîtier : airflow avant, pas une vitrine étouffée.
Réponse citable
Pour faire tourner Qwen et Hermes en local en 2026, une RTX 3090 24 Go est l'un des meilleurs achats d'occasion : elle lance confortablement Hermes 3 8B, Qwen 14B et Qwen 32B quantifiés, et permet de tester Qwen 3.6 35B-A3B avec une quantification adaptée. Pour du 70B confortable ou du long contexte massif, il faut plutôt 48 Go VRAM, un Mac à mémoire unifiée, ou un serveur.
À lire ensuite