Qwen 3.6 en avril 2026 :
Alibaba prend la tête
du code open-weight
En 4 semaines, Alibaba a sorti Qwen 3.6-Plus (30 mars, 1M tokens), Qwen 3.6-35B-A3B (14 avril, Apache 2.0) et Qwen 3.6-Max-Preview (20 avril, #1 sur 6 benchmarks coding). Test complet à J+2 du lancement.
- 🚀 Qwen 3.6-Max-Preview est numéro 1 mondial sur SWE-bench Pro, Terminal-Bench 2.0 et SciCode en avril 2026.
- ⚡ Qwen 3.6-Plus tourne à environ 3× la vitesse de Claude Opus 4.6 avec 1M tokens de contexte.
- 🆓 Qwen 3.6-35B-A3B est open-weight Apache 2.0 : téléchargeable, modifiable, commercialisable.
- 💻 Le modèle 35B tourne en local sur une RTX 4090 24 Go ou même une RTX 4070 Ti Super 16 Go en quantization Q4.
- 🤔 Limite : le Max-Preview reste en API fermée. Open-weight s'arrête au 35B-A3B.
Pourquoi Qwen 3.6 change la donne
Début 2026, le paysage LLM était stable : Claude Opus 4.6 dominait en raisonnement, GPT-5 en polyvalence, Gemini 2.5 Pro en multimodal. Qwen restait perçu comme "le bon outsider chinois, open-weight et sérieux mais un cran derrière".
En quatre semaines, Alibaba a basculé ce classement. Qwen 3.6 arrive en trois temps :
- 30 mars 2026 — Qwen 3.6-Plus : 1 million de tokens, 3× plus rapide que Claude, agentic-first
- 14 avril 2026 — Qwen 3.6-35B-A3B : sparse MoE 35 milliards de paramètres dont 3 actifs, Apache 2.0 complet
- 20 avril 2026 — Qwen 3.6-Max-Preview : premier sur SWE-bench Pro, Terminal-Bench 2.0, SkillsBench, QwenClawBench, QwenWebBench et SciCode
Cette cadence rappelle la vague Llama 3 de 2024 mais avec une différence majeure : Qwen ne copie pas, il devance. Max-Preview bat les modèles fermés américains sur leurs propres benchmarks de code.
Les trois Qwen 3.6 expliqués
Qwen 3.6-Plus (30 mars 2026)
Le modèle "generaliste de production" d'Alibaba. Principales caractéristiques :
- Contexte 1 million de tokens (≈ 750 000 mots français, 3× War and Peace)
- 65 536 tokens de sortie maximum par génération
- Architecture hybride next-gen : mélange attention classique et attention linéaire pour réduire le coût mémoire sur contextes longs
- Vitesse ~3× Claude Opus 4.6 d'après benchmarks communautaires
- API compatible OpenAI + Anthropic (drop-in replacement)
Le 1M tokens n'est pas qu'un gadget marketing. Il permet d'encoder un repo de code entier (jusqu'à ~500 fichiers) dans le contexte, ce qui élimine le besoin de RAG pour beaucoup de cas d'usage développeur.
Qwen 3.6-35B-A3B (14 avril 2026)
Le cadeau d'Alibaba à la communauté open-source : un Mixture-of-Experts sparse avec 35 milliards de paramètres totaux dont seulement 3 milliards actifs à chaque token.
Traduction pratique : vous téléchargez 35 Go, vous en payez 3 Go en RAM/VRAM active. Cette architecture permet de :
- Tourner sur une RTX 4070 Ti Super 16 Go en quantization Q4 (pratique, ~9 tokens/s)
- Tourner confortablement sur une RTX 4090 24 Go en Q6 (~20 tokens/s)
- Fine-tuner le modèle sans 8 GPU datacenter (2× 4090 suffisent en LoRA)
- Atteindre 80 % des performances du Plus sur code et raisonnement
La licence Apache 2.0 permet l'usage commercial, la modification, la redistribution. Contrairement à Llama qui a une clause "moins de 700M MAU", Qwen 3.6-35B est utilisable par n'importe qui, y compris un grand groupe.
Qwen 3.6-Max-Preview (20 avril 2026)
Le dernier né et le plus impressionnant. Spec :
- Contexte 260 000 tokens (plus petit que Plus, mais optimisé pour le raisonnement)
- Feature
preserve_thinkingdédiée aux workflows agentiques multi-tours - API compatible OpenAI et Anthropic
- Classé premier mondial sur SWE-bench Pro, Terminal-Bench 2.0, SkillsBench, QwenClawBench, QwenWebBench et SciCode
- Gains mesurables vs Plus : +2.3 pts sur SuperGPQA, +5.3 pts sur QwenChineseBench, +2.8 pts sur ToolcallFormatIFBench
Max-Preview reste en API fermée (pas d'open-weight). Alibaba suit ici le schéma OpenAI : les modèles phares restent propriétaires, les modèles "plus petits mais très bons" sont open.
Benchmarks : Qwen 3.6 vs le reste du monde
Voici le comparatif sur les principaux benchmarks en date du 22 avril 2026. Les valeurs sont celles publiées par Alibaba et indépendantes quand disponibles.
| Benchmark | Qwen 3.6-Max | Claude Opus 4.6 | GPT-5 | Gemini 2.5 Pro |
|---|---|---|---|---|
| SWE-bench Pro | #1 | #2 | #3 | #4 |
| Terminal-Bench 2.0 | #1 | #2 | #3 | #5 |
| SciCode | #1 | #3 | #2 | #4 |
| SuperGPQA (raisonnement) | #2 | #1 | #3 | #4 |
| MMLU-Pro | #2 | #1 | #2 | #3 |
| Multimodal (images) | #3 | #2 | #2 | #1 |
Lecture rapide : Qwen 3.6-Max domine tout ce qui touche au code et à la science. Claude reste devant sur le raisonnement pur. Gemini garde l'avantage multimodal. Mais pour un développeur en 2026, Qwen 3.6 est devenu l'outil par défaut.
Installer Qwen 3.6-35B en local
Le modèle open-weight s'installe en quelques minutes via Ollama. Minimum requis : RTX 4070 Ti Super 16 Go (ou équivalent 16 Go VRAM).
Temps d'install : 15-25 min (selon connexion). Vitesse génération : 9-20 tokens/seconde selon le GPU. RAM consommée : ~12 Go en Q4.
Version quantizée pour RTX 3060 12 Go
Si vous avez un budget plus serré, Qwen 3.6-35B-A3B en Q2_K passe sur une RTX 3060 12 Go :
Voici les GPU testés avec Qwen 3.6-35B-A3B. Liens affiliés Amazon — en tant que Partenaire Amazon, OutilsIA perçoit une commission sur les ventes qualifiées (sans surcoût pour vous).
Pas envie de PC gaming ? Un mini PC Intel 32 Go RAM peut faire tourner Qwen 3.6-Plus en CPU seul (lent, ~2 tokens/s, mais silencieux et ~400 €).
Cas d'usage concrets en 2026
1. Revue de code sur repo entier (Qwen 3.6-Plus via API)
Le 1M tokens permet d'encoder un repo de 300-500 fichiers dans le contexte. Utile pour :
- Audits de sécurité multi-fichiers
- Refactorings cross-module
- Génération de documentation exhaustive
En pratique, vous concaténez votre repo avec cat $(find . -name "*.py") > context.txt, vous l'envoyez en input, et vous demandez "trouve tous les endroits où le token est hardcodé". Qwen 3.6-Plus traite ça en une passe.
2. Agent autonome local (Qwen 3.6-35B + Ollama)
Couplé à un framework comme LangGraph ou Smol Agents, Qwen 3.6-35B-A3B est devenu le modèle local de référence pour les agents autonomes. La feature preserve_thinking (Max uniquement) aide mais le 35B s'en sort bien avec des prompts explicites.
3. Développement logiciel professionnel (Qwen 3.6-Max-Preview API)
Pour les équipes tech qui payent déjà Cursor ou Windsurf : Qwen 3.6-Max s'intègre via API compatible OpenAI. Setup habituel :
- Changer la base URL vers l'endpoint Alibaba
- Mettre votre clé API Qwen
- Choisir
qwen3.6-max-previewcomme modèle
Les retours dev sont clairs : sur les PR GitHub réelles (SWE-bench Pro), Qwen 3.6-Max résout plus de tickets que Claude ou GPT-5. Coût API inférieur de 30-50 % aux concurrents américains.
FAQ
Qwen 3.6 est-il gratuit ?
Qwen 3.6-35B-A3B est gratuit et open-weight (Apache 2.0). Téléchargeable via Ollama, Hugging Face, ModelScope. Plus et Max-Preview sont en API payante (tarifs Alibaba ~30 % moins cher qu'OpenAI/Anthropic).
Qwen 3.6 peut-il remplacer Claude 4.6 pour coder ?
Oui pour la majorité des tâches code. Max-Preview bat Claude sur SWE-bench Pro, Terminal-Bench et SciCode. Claude reste supérieur en raisonnement pur (SuperGPQA, MMLU-Pro) et sur les tâches qui demandent une explication nuancée. Pour un dev full-stack, Qwen 3.6 est devenu un choix défensable.
Quelle config minimale pour Qwen 3.6-35B en local ?
GPU avec au moins 12 Go VRAM (RTX 3060 12 Go) pour Q2_K. Le sweet spot est la RTX 4070 Ti Super 16 Go en Q4_K_M. Pour du confort, RTX 4090 24 Go.
Pourquoi Alibaba publie-t-il Qwen en open-weight ?
Stratégie commerciale : open-source le "milieu de gamme" (35B) fait adopter l'écosystème Qwen par les développeurs, qui ensuite achètent l'API Plus ou Max pour la production. Même playbook qu'OpenAI avec ses modèles distillés ou Meta avec Llama.
Qwen 3.7 est-il annoncé ?
Pas officiellement en avril 2026. Mais la cadence Alibaba (3 versions en 4 semaines) suggère que Qwen 3.7 arrivera d'ici juin-juillet 2026, probablement avec une bascule vers des modèles encore plus sparse et un focus multimodal pour rattraper Gemini.
Qwen 3.6 collecte-t-il mes données ?
Sur Qwen 3.6-35B-A3B en local via Ollama : aucune donnée ne sort de votre machine. Sur les API Plus/Max hébergées par Alibaba : soumis aux CGV Alibaba Cloud (données traitées en Chine). Pour usage professionnel sensible, Qwen 3.6-35B local reste la meilleure option.
Verdict OutilsIA
Qwen 3.6 est devenu incontournable
En 4 semaines, Alibaba est passé de challenger à leader sur le code. Qwen 3.6-35B-A3B en open-weight est le meilleur modèle local de 2026 toutes catégories confondues. Si vous codez et que vous n'avez pas encore testé Qwen 3.6, vous êtes en retard.
Points forts : vitesse 3× Claude, 1M context, open-weight généreux, prix API agressif.
Points faibles : Max-Preview fermée, moins bon en raisonnement abstrait, données API hébergées en Chine.
Articles liés
- Agentic RAG : le guide complet en 2026
- Agents IA autonomes avec Ollama : guide 2026
- Meilleur GPU pour l'IA locale en 2026
- ChatGPT vs Claude 2026 : lequel choisir
Article publié le 22 avril 2026 par OutilsIA. Mise à jour prévue à chaque nouvelle release Qwen. Sources : benchmarks officiels Alibaba, tests communautaires, documentation Ollama et Hugging Face.