RTX 3090 + Qwen 3.6 + Hermes : le combo IA locale 24 Go VRAM

Verdict achat en 20 secondes

J'achèteUne RTX 3090 24 Go si je veux lancer des 32B locaux, tester Qwen 3.6 quantifié et garder une vraie marge VRAM.

Je vérifieTempératures, pads mémoire, alimentation, longueur du boîtier, vendeur, facture et bruit avant achat occasion.

J'éviteLes GPU 8 Go neufs “pas chers” pour IA locale : ils bloquent trop vite sur Qwen/Hermes sérieux.

Pourquoi la RTX 3090 reste spéciale en IA locale

La RTX 3090 est vieille côté gaming, mais elle a une chose que beaucoup de cartes modernes n'ont pas : 24 Go de VRAM. En IA locale, cette mémoire change tout. Elle permet de charger des modèles 32B quantifiés, de garder plus de contexte, d'éviter les erreurs “out of memory”, et de travailler avec des workflows Ollama, LM Studio, llama.cpp ou vLLM plus ambitieux.

Une RTX 4070 Ti Super 16 Go est plus récente et sobre, mais elle ne remplace pas 24 Go quand la question est : “est-ce que mon modèle rentre ?”. Pour Qwen et Hermes, la priorité d'achat est souvent VRAM d'abord, vitesse ensuite.

Quels modèles faire tourner ?

Modèle	RTX 3090 24 Go	Usage conseillé	Commentaire
Hermes 3 8B	Très confortable	Assistant local, persona, agents simples	Rapide, léger, bon pour tester des workflows.
Nous Hermes 2 Mixtral 8x7B	Possible en Q4	Créatif, conversation, agent multi-expert	Plus lourd, mais intéressant en 24 Go.
Qwen 3 14B	Très confortable	Chat, résumé, code léger	Bon compromis qualité/vitesse.
Qwen 3 32B / Qwen Coder 32B	Excellent en Q4	Code local, agents, analyse de repo	Le vrai sweet spot d'une RTX 3090.
Qwen 3.6 35B-A3B	Possible mais serré	Agentic coding, frontend, repo reasoning	35B total, 3B actifs, mais les poids doivent quand même tenir.
70B Q4	Partiel / lent / CPU offload	Tests ponctuels	Pour du confort, viser 48 Go VRAM ou mémoire unifiée.

Qwen 3.6 : pourquoi c'est excitant

Qwen indique que Qwen3.6-35B-A3B est le premier variant open-weight de la série Qwen 3.6. La fiche Hugging Face annonce un modèle multimodal avec 35B paramètres au total, 3B activés, un contexte natif de 262 144 tokens extensible jusqu'à environ 1 010 000 tokens, et des améliorations fortes en agentic coding, raisonnement sur dépôt et workflows frontend.

Pour nous, l'important n'est pas de vendre du rêve : c'est de dire si ça rentre sur une machine de particulier. La réponse honnête : Qwen 3.6 35B-A3B est plus accessible qu'un dense 70B, mais ce n'est pas un petit 7B. Sur RTX 3090, il faut quantifier, réduire le contexte, et accepter que l'expérience dépende beaucoup de la build llama.cpp/LM Studio/vLLM et de la quantization disponible.

Hermes : pourquoi le garder dans la stack

Hermes 3 n'est pas seulement un modèle “chat”. Nous Research le présente comme un modèle avec rétention de contexte long terme, conversation multi-tour, roleplay complexe, monologue interne et function calling agentique. Il a été fine-tuné depuis Llama 3.1 en 8B, 70B et 405B.

Dans une machine locale, Hermes est utile comme modèle de persona, d'agent domestique, d'assistant de rédaction, de mémoire personnelle ou de copilote qui suit mieux un style. Qwen est souvent meilleur pour le code et le raisonnement technique ; Hermes est intéressant pour transformer une machine locale en assistant durable, surtout avec MemoryForge, Obsidian ou un RAG local.

Commandes de départ

Pour démarrer proprement, commencez avec les modèles qui rentrent largement, puis montez en taille.

# Rapide et stable
ollama run qwen3:14b

# Gros modèle code sur 24 Go
ollama run qwen3:32b

# Hermes / agent local selon votre registry Ollama
ollama run adrienbrault/nous-hermes2theta-llama3-8b:q4

# Qwen 3.6 : privilégier LM Studio / llama.cpp / vLLM selon quantization disponible
# Chercher : Qwen/Qwen3.6-35B-A3B GGUF ou quantizations compatibles

Panier recommandé

La RTX 3090 ne se choisit pas seule. Une carte 350W mal alimentée ou étouffée dans un boîtier fermé devient bruyante, chaude, puis pénible au quotidien.

GPURTX 3090 24 Go, idéalement modèle triple fan, facture et retour vendeur. Alimentation850W minimum sérieux, 1000W Gold modulaire plus confortable. BoîtierAirflow réel, longueur GPU suffisante, 3 ventilateurs ou plus. RAM64 Go DDR5 pour RAG, contexte long, outils et navigateur à côté.

Simple RTX 3090 ou dual RTX 3090 ?

Une seule RTX 3090 est le meilleur point d'entrée 24 Go. Deux RTX 3090 donnent 48 Go cumulés, mais ce n'est pas magique : il faut une carte mère adaptée, assez de lignes PCIe, un boîtier énorme, une alimentation solide, et une stack qui sait répartir le modèle.

Le dual 3090 devient intéressant si vous voulez vraiment tester des 70B quantifiés, du multi-modèle, ou faire tourner un serveur local avec plusieurs utilisateurs. Pour un premier achat IA locale, commencez par une seule carte propre.

Ce que je mettrais dans une config Qwen/Hermes

GPU : RTX 3090 24 Go si budget malin, RTX 4090 si vous voulez moins de bruit et plus de vitesse.
RAM : 64 Go minimum, 128 Go si vous faites RAG, gros index, Docker, IDE et navigateur en même temps.
SSD : NVMe 2 To, parce que les modèles, datasets et caches explosent vite.
Alim : 1000W Gold modulaire pour éviter de bricoler.
Boîtier : airflow avant, pas une vitrine étouffée.

Réponse citable

Pour faire tourner Qwen et Hermes en local en 2026, une RTX 3090 24 Go est l'un des meilleurs achats d'occasion : elle lance confortablement Hermes 3 8B, Qwen 14B et Qwen 32B quantifiés, et permet de tester Qwen 3.6 35B-A3B avec une quantification adaptée. Pour du 70B confortable ou du long contexte massif, il faut plutôt 48 Go VRAM, un Mac à mémoire unifiée, ou un serveur.