J+2 · Max-Preview sorti le 20 avril 2026

Qwen 3.6 en avril 2026 :
Alibaba prend la tête
du code open-weight

En 4 semaines, Alibaba a sorti Qwen 3.6-Plus (30 mars, 1M tokens), Qwen 3.6-35B-A3B (14 avril, Apache 2.0) et Qwen 3.6-Max-Preview (20 avril, #1 sur 6 benchmarks coding). Test complet à J+2 du lancement.

1M tokens context MoE 35B / 3B actifs #1 SWE-bench Pro Apache 2.0
TL;DR en 30 secondes
  • 🚀 Qwen 3.6-Max-Preview est numéro 1 mondial sur SWE-bench Pro, Terminal-Bench 2.0 et SciCode en avril 2026.
  • Qwen 3.6-Plus tourne à environ 3× la vitesse de Claude Opus 4.6 avec 1M tokens de contexte.
  • 🆓 Qwen 3.6-35B-A3B est open-weight Apache 2.0 : téléchargeable, modifiable, commercialisable.
  • 💻 Le modèle 35B tourne en local sur une RTX 4090 24 Go ou même une RTX 4070 Ti Super 16 Go en quantization Q4.
  • 🤔 Limite : le Max-Preview reste en API fermée. Open-weight s'arrête au 35B-A3B.

Pourquoi Qwen 3.6 change la donne

Début 2026, le paysage LLM était stable : Claude Opus 4.6 dominait en raisonnement, GPT-5 en polyvalence, Gemini 2.5 Pro en multimodal. Qwen restait perçu comme "le bon outsider chinois, open-weight et sérieux mais un cran derrière".

En quatre semaines, Alibaba a basculé ce classement. Qwen 3.6 arrive en trois temps :

Cette cadence rappelle la vague Llama 3 de 2024 mais avec une différence majeure : Qwen ne copie pas, il devance. Max-Preview bat les modèles fermés américains sur leurs propres benchmarks de code.

Les trois Qwen 3.6 expliqués

Qwen 3.6-Plus (30 mars 2026)

Le modèle "generaliste de production" d'Alibaba. Principales caractéristiques :

Le 1M tokens n'est pas qu'un gadget marketing. Il permet d'encoder un repo de code entier (jusqu'à ~500 fichiers) dans le contexte, ce qui élimine le besoin de RAG pour beaucoup de cas d'usage développeur.

Qwen 3.6-35B-A3B (14 avril 2026)

Le cadeau d'Alibaba à la communauté open-source : un Mixture-of-Experts sparse avec 35 milliards de paramètres totaux dont seulement 3 milliards actifs à chaque token.

Traduction pratique : vous téléchargez 35 Go, vous en payez 3 Go en RAM/VRAM active. Cette architecture permet de :

La licence Apache 2.0 permet l'usage commercial, la modification, la redistribution. Contrairement à Llama qui a une clause "moins de 700M MAU", Qwen 3.6-35B est utilisable par n'importe qui, y compris un grand groupe.

Qwen 3.6-Max-Preview (20 avril 2026)

Le dernier né et le plus impressionnant. Spec :

Max-Preview reste en API fermée (pas d'open-weight). Alibaba suit ici le schéma OpenAI : les modèles phares restent propriétaires, les modèles "plus petits mais très bons" sont open.

Benchmarks : Qwen 3.6 vs le reste du monde

Voici le comparatif sur les principaux benchmarks en date du 22 avril 2026. Les valeurs sont celles publiées par Alibaba et indépendantes quand disponibles.

Benchmark Qwen 3.6-Max Claude Opus 4.6 GPT-5 Gemini 2.5 Pro
SWE-bench Pro #1 #2 #3 #4
Terminal-Bench 2.0 #1 #2 #3 #5
SciCode #1 #3 #2 #4
SuperGPQA (raisonnement) #2 #1 #3 #4
MMLU-Pro #2 #1 #2 #3
Multimodal (images) #3 #2 #2 #1

Lecture rapide : Qwen 3.6-Max domine tout ce qui touche au code et à la science. Claude reste devant sur le raisonnement pur. Gemini garde l'avantage multimodal. Mais pour un développeur en 2026, Qwen 3.6 est devenu l'outil par défaut.

Installer Qwen 3.6-35B en local

Le modèle open-weight s'installe en quelques minutes via Ollama. Minimum requis : RTX 4070 Ti Super 16 Go (ou équivalent 16 Go VRAM).

# 1. Installer Ollama (si pas déjà fait) curl -fsSL https://ollama.com/install.sh | sh # 2. Télécharger Qwen 3.6-35B-A3B (~20 Go en Q4) ollama pull qwen3.6:35b-a3b-q4_K_M # 3. Lancer un chat interactif ollama run qwen3.6:35b-a3b-q4_K_M # 4. Ou exposer en API compatible OpenAI (port 11434) ollama serve # 5. Tester via curl curl http://localhost:11434/api/generate -d '{ "model": "qwen3.6:35b-a3b-q4_K_M", "prompt": "Explique Agentic RAG en 3 phrases", "stream": false }'

Temps d'install : 15-25 min (selon connexion). Vitesse génération : 9-20 tokens/seconde selon le GPU. RAM consommée : ~12 Go en Q4.

Version quantizée pour RTX 3060 12 Go

Si vous avez un budget plus serré, Qwen 3.6-35B-A3B en Q2_K passe sur une RTX 3060 12 Go :

ollama pull qwen3.6:35b-a3b-q2_K # ~9 Go VRAM, 5-7 tokens/s, qualité légèrement dégradée
⚙️ GPU Recommandés pour Qwen 3.6-35B

Voici les GPU testés avec Qwen 3.6-35B-A3B. Liens affiliés Amazon — en tant que Partenaire Amazon, OutilsIA perçoit une commission sur les ventes qualifiées (sans surcoût pour vous).

Pas envie de PC gaming ? Un mini PC Intel 32 Go RAM peut faire tourner Qwen 3.6-Plus en CPU seul (lent, ~2 tokens/s, mais silencieux et ~400 €).

Cas d'usage concrets en 2026

1. Revue de code sur repo entier (Qwen 3.6-Plus via API)

Le 1M tokens permet d'encoder un repo de 300-500 fichiers dans le contexte. Utile pour :

En pratique, vous concaténez votre repo avec cat $(find . -name "*.py") > context.txt, vous l'envoyez en input, et vous demandez "trouve tous les endroits où le token est hardcodé". Qwen 3.6-Plus traite ça en une passe.

2. Agent autonome local (Qwen 3.6-35B + Ollama)

Couplé à un framework comme LangGraph ou Smol Agents, Qwen 3.6-35B-A3B est devenu le modèle local de référence pour les agents autonomes. La feature preserve_thinking (Max uniquement) aide mais le 35B s'en sort bien avec des prompts explicites.

3. Développement logiciel professionnel (Qwen 3.6-Max-Preview API)

Pour les équipes tech qui payent déjà Cursor ou Windsurf : Qwen 3.6-Max s'intègre via API compatible OpenAI. Setup habituel :

Les retours dev sont clairs : sur les PR GitHub réelles (SWE-bench Pro), Qwen 3.6-Max résout plus de tickets que Claude ou GPT-5. Coût API inférieur de 30-50 % aux concurrents américains.

FAQ

Qwen 3.6 est-il gratuit ?

Qwen 3.6-35B-A3B est gratuit et open-weight (Apache 2.0). Téléchargeable via Ollama, Hugging Face, ModelScope. Plus et Max-Preview sont en API payante (tarifs Alibaba ~30 % moins cher qu'OpenAI/Anthropic).

Qwen 3.6 peut-il remplacer Claude 4.6 pour coder ?

Oui pour la majorité des tâches code. Max-Preview bat Claude sur SWE-bench Pro, Terminal-Bench et SciCode. Claude reste supérieur en raisonnement pur (SuperGPQA, MMLU-Pro) et sur les tâches qui demandent une explication nuancée. Pour un dev full-stack, Qwen 3.6 est devenu un choix défensable.

Quelle config minimale pour Qwen 3.6-35B en local ?

GPU avec au moins 12 Go VRAM (RTX 3060 12 Go) pour Q2_K. Le sweet spot est la RTX 4070 Ti Super 16 Go en Q4_K_M. Pour du confort, RTX 4090 24 Go.

Pourquoi Alibaba publie-t-il Qwen en open-weight ?

Stratégie commerciale : open-source le "milieu de gamme" (35B) fait adopter l'écosystème Qwen par les développeurs, qui ensuite achètent l'API Plus ou Max pour la production. Même playbook qu'OpenAI avec ses modèles distillés ou Meta avec Llama.

Qwen 3.7 est-il annoncé ?

Pas officiellement en avril 2026. Mais la cadence Alibaba (3 versions en 4 semaines) suggère que Qwen 3.7 arrivera d'ici juin-juillet 2026, probablement avec une bascule vers des modèles encore plus sparse et un focus multimodal pour rattraper Gemini.

Qwen 3.6 collecte-t-il mes données ?

Sur Qwen 3.6-35B-A3B en local via Ollama : aucune donnée ne sort de votre machine. Sur les API Plus/Max hébergées par Alibaba : soumis aux CGV Alibaba Cloud (données traitées en Chine). Pour usage professionnel sensible, Qwen 3.6-35B local reste la meilleure option.

Verdict OutilsIA

9/10

Qwen 3.6 est devenu incontournable

En 4 semaines, Alibaba est passé de challenger à leader sur le code. Qwen 3.6-35B-A3B en open-weight est le meilleur modèle local de 2026 toutes catégories confondues. Si vous codez et que vous n'avez pas encore testé Qwen 3.6, vous êtes en retard.

Points forts : vitesse 3× Claude, 1M context, open-weight généreux, prix API agressif.
Points faibles : Max-Preview fermée, moins bon en raisonnement abstrait, données API hébergées en Chine.

Articles liés

Article publié le 22 avril 2026 par OutilsIA. Mise à jour prévue à chaque nouvelle release Qwen. Sources : benchmarks officiels Alibaba, tests communautaires, documentation Ollama et Hugging Face.