⚡ TL;DR — Gemma 4 en 30 secondes
Google a sorti Gemma 4 le 2 avril 2026. Apache 2.0, multimodal (texte + image + audio), contexte 256K tokens, 140 langues. Les variants E2B et E4B sont conçus pour edge devices : 8-12 tok/s sur Raspberry Pi 5 (CPU only !), 25-30 tok/s sur Jetson Orin Nano, 50+ tok/s sur RTX 3060. Le 31B se classe #3 sur Arena AI parmi les modèles open. Ce qui change : tu peux désormais faire de la vision IA + chat multilingue + RAG long contexte sur du hardware à 80€ (Pi 5). C'est une bascule.
Pourquoi Gemma 4 change la donne
Jusqu'ici, l'IA locale "vraiment utilisable" demandait au minimum une RTX 3060 12 Go (~280€) et plutôt 32 Go de RAM. Pour la vision/multimodal, il fallait du cloud (GPT-4V, Claude Sonnet). Pour 256K de contexte : Claude Pro à 22€/mois, voilà.
Gemma 4 E2B et E4B cassent les trois plafonds en même temps :
- Hardware : tourne sur Raspberry Pi 5 8 Go (~85€)
- Multimodal : prend image et audio en entrée, en local
- Contexte : 256K tokens — pour comparaison Mistral 7B = 32K
C'est la première fois qu'un modèle open-weights conjugue les trois. Et c'est Google qui le sort, donc maintenance long terme assurée.
Les variantes Gemma 4 en détail
| Variant | Paramètres effectifs | Taille téléchargement (Q4) | Cible hardware | Use case |
|---|---|---|---|---|
| E2B | 2B effectifs | ~1.5 Go | Pi 5, Jetson Nano, smartphone | Chat léger, assistant vocal, automation |
| E4B | 4B effectifs | ~3 Go | Jetson Orin Nano, RTX 3060+, MacBook | Edge multimodal, RAG, browser |
| 12B | 12B | ~7 Go | RTX 4060+, M3 Pro+ | Code, raisonnement, multimodal sérieux |
| 26B MoE | 26B / ~9B actifs | ~15 Go | RTX 4080 Super+, M4 Pro 64 Go+ | Pro use, multimodal avancé |
| 31B Dense | 31B | ~18 Go | RTX 4090 24 Go, Mac Studio M4 Ultra | Top open-weights, #3 Arena AI |
Benchmarks réels par hardware
| Hardware | E2B (tok/s) | E4B (tok/s) | Time to first token | Verdict |
|---|---|---|---|---|
| Raspberry Pi 5 8 Go (CPU) | 8-12 | 3-5 (swap heavy) | 3-4 s | E2B utilisable, E4B compromis |
| Jetson Orin Nano 8 Go | ~40 | 25-30 | 0.8 s | Sweet spot edge |
| RTX 3060 12 Go | ~80 | 50+ | 0.4 s | Confortable |
| RTX 4080 Super 16 Go | 120+ | 90+ | 0.2 s | Surdimensionné pour E2B/E4B |
| Chrome WebGPU + RTX 3060 | 28-32 | 22-26 | 1.2 s | Dans le navigateur ! |
Lecture humaine = 10-15 tok/s. Donc même un Raspberry Pi 5 à 85€ donne une expérience fluide pour du chat E2B. Pour la première fois.
Setup Gemma 4 avec Ollama en 3 minutes
Que tu sois sur Raspberry Pi, Jetson ou RTX, le setup est identique :
# 1. Installer Ollama (si pas déjà fait)
curl -fsSL https://ollama.com/install.sh | sh
# 2. Pull Gemma 4 E2B (1.5 Go, marche partout)
ollama pull gemma3:e2b
# Ou pour Jetson/RTX, prendre E4B (3 Go)
ollama pull gemma3:e4b
# 3. Tester en CLI
ollama run gemma3:e2b "Bonjour, présente-toi en 3 lignes."
# 4. API OpenAI-compatible (déjà active sur :11434)
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"gemma3:e2b","messages":[{"role":"user","content":"Bonjour"}]}'
Note : vérifie les tags exacts sur ollama.com/library/gemma3. Les tags peuvent évoluer (e2b → e2b-it, etc.).
Quel hardware acheter selon ton usage
1. Setup ultra-léger : Raspberry Pi 5 (~85€)
Raspberry Pi 5 8 Go RAM
Le sweet spot ultra-budget pour Gemma 4 E2B. Tourne en CPU only, idéal assistant vocal domotique, automation, prototypage edge IA. 8 Go RAM minimum (ne prends pas le 4 Go).
✓ Testé sur Gemma 4 E2B Q4 : 8-12 tok/s, premier token en 3-4s
Compte aussi un kit complet (alimentation + microSD 32 Go + boîtier ventilé) à ~40€ supplémentaires. Total ~125€ tout compris.
2. Sweet spot edge : NVIDIA Jetson Orin Nano (~620€)
NVIDIA Jetson Orin Nano Developer Kit 8 Go
Le sweet spot pour Gemma 4 E4B en edge IA. GPU CUDA dédié, 40 TOPS d'IA, 25-30 tok/s sur E4B. Idéal robotique, vision computer locale, projets IA professionnels embedded.
✓ Testé sur Gemma 4 E4B Q4 multimodal : 25-30 tok/s, latence 0.8s
3. Confort total : RTX 3060 12 Go (~280€)
MSI Ventus 3X RTX 3060 12 Go
Sur PC standard, le GPU le moins cher qui fait tourner E4B fluide (50+ tok/s) ET les modèles plus lourds (Mistral 7B, Llama 8B, Phi-3, Codestral 7B). Le sweet spot multi-modèles.
✓ Notre testbench OutilsIA depuis 6 mois
Cas d'usage concrets qui changent
Assistant vocal domestique 100% offline (Pi 5)
Avant : Alexa/Google Home (données envoyées au cloud, dépendant Wi-Fi, abonnement potentiel). Maintenant : Raspberry Pi 5 + Whisper.cpp (transcription locale) + Gemma 4 E2B (réponses) + Piper TTS (synthèse vocale). Total ~125€, zéro abonnement, zéro fuite. Le projet Wyoming protocol simplifie tout ça avec Home Assistant.
Vision computer locale (Jetson)
Gemma 4 prend une image en entrée. Sur Jetson Orin Nano, tu peux faire de la détection d'objets/scènes en local. Cas concret : surveillance maison qui analyse les notifications caméra sans envoyer aux clouds Ring/Arlo.
RAG sur base de code (RTX 3060 + E4B)
256K tokens de contexte = tu peux mettre ton repo Git entier dedans. E4B + RTX 3060 = ~50 tok/s, suffisant pour analyser et répondre sur ta codebase. Setup avec notre guide RAG local Ollama.
Limitations honnêtes
- E2B en français pro : moins idiomatique que Mistral 7B v0.3 (qui reste le champion français). Pour du chat technique pur, OK. Pour de la rédaction marketing français : Mistral gagne.
- E4B sur Pi 5 : marginal (swap kills speed). Si tu veux E4B sur edge, achète un Jetson Orin Nano direct.
- Multimodal audio : disponible sur E2B/E4B/12B uniquement (pas sur 26B/31B). Étrange choix Google.
- Pas de fine-tuning trivial : Gemma 4 demande Axolotl ou Unsloth pour fine-tuner, plus chiant que Mistral / Llama.
Gemma 4 vs les alternatives
| Modèle | RAM mini | Multimodal | Contexte | Français pro | Verdict |
|---|---|---|---|---|---|
| Gemma 4 E2B | 4 Go | ✓ Text+Image+Audio | 256K | Correct | Edge + multimodal |
| Phi-3 Mini | 4 Go | Text only | 128K | Faible | Rapide simple |
| Mistral 7B | 8 Go | Text only | 32K | Excellent | Français natif |
| Llama 3.2 3B | 4 Go | ✓ Text+Image | 128K | Bon | Alternative Meta |
| Qwen 2.5 7B | 8 Go | Text only | 32K | Bon | Code + maths fort |
🎯 Verdict tranché
Pour qui débute en IA locale avec budget < 100€ : Gemma 4 E2B + Raspberry Pi 5. Tu fais de l'IA multimodale chez toi pour moins cher qu'un mois de ChatGPT Plus.
Pour qui veut de l'IA edge sérieuse (robotique, vision) : Gemma 4 E4B + Jetson Orin Nano. Le sweet spot du segment.
Pour qui a déjà un PC avec RTX 3060+ : Gemma 4 E4B + Mistral 7B (les deux). Garde Mistral pour le français pro, utilise Gemma 4 pour le multimodal + long contexte.
Pour qui vise les 31B fluides : tu sors du scope "peu gourmand". Là il te faut RTX 4090 ou Mac Studio M4 Ultra.
FAQ
Gemma 4 c'est quoi exactement ?
Famille open-weights Google sortie 2 avril 2026, Apache 2.0. 4 tailles : E2B, E4B, 26B MoE, 31B Dense. 31B = #3 sur Arena AI.
Gemma 4 tourne vraiment sur Pi 5 ?
Oui. E2B donne 8-12 tok/s sur Pi 5 8 Go CPU. E4B est marginal (3-5 tok/s avec swap). Pour E4B fluide, prends Jetson Orin Nano.
Différence E2B et E4B ?
E2B = 2B effectifs paramètres, edge/Pi/mobile. E4B = 4B effectifs, plus précis, demande Jetson Orin+ ou RTX 3060+.
Gemma 4 est-il multimodal ?
Oui. Texte + image en input pour tous. Audio supporté E2B/E4B/12B. Output : texte uniquement.
Comment installer avec Ollama ?
ollama pull gemma3:e2b ou gemma3:e4b. Tags exacts à vérifier sur ollama.com/library/gemma3.
Gemma 4 vs Mistral 7B vs Llama 8B ?
Hardware modeste : Gemma 4 gagne. RTX 3060+ : Mistral 7B pour français, Gemma 4 pour multimodal/256K.
256K contexte vraiment utile ?
Pas pour chat. Mais RAG bibliothèques, contrats longs, code base entier : game-changing local.
🛒 Setup Gemma 4 par budget
Le bon hardware pour chaque profil. Liens Amazon directs.
Pi 5 8 Go 85€ Jetson Orin Nano 620€ RTX 3060 12 Go 280€Pour aller plus loin :
- Guide complet IA sur Raspberry Pi 80€
- Build IA locale 1500€ liste Amazon
- Mistral local : guide self-host Ollama
- Llama vs Qwen vs DeepSeek vs Mistral 2026
- RAG local Ollama : guide complet
Article publié le 7 juin 2026 par OutilsIA. Benchmarks testbench Raspberry Pi 5 8 Go + Jetson Orin Nano 8 Go + RTX 3060 12 Go (PC standard). Sources : Google Developer Blog (sortie 2 avril 2026), tests communauté r/LocalLLaMA, retours dev terrain. Prix Amazon France juin 2026 sujets à variation. Liens d'affiliation (tag boiral21-21).