AccueilBlog › Gemma 4 local 2026

Gemma 4 en local : le modèle Google qui tourne sur Raspberry Pi 5

Publié le 7 juin 2026 · ~11 min de lecture · Tests Pi 5 + Jetson + RTX 3060
⚠️ Cet article contient des liens d'affiliation Amazon (tag boiral21-21). Achats via ces liens : commission reversée sans surcoût pour toi. Finance nos tests hardware.

⚡ TL;DR — Gemma 4 en 30 secondes

Google a sorti Gemma 4 le 2 avril 2026. Apache 2.0, multimodal (texte + image + audio), contexte 256K tokens, 140 langues. Les variants E2B et E4B sont conçus pour edge devices : 8-12 tok/s sur Raspberry Pi 5 (CPU only !), 25-30 tok/s sur Jetson Orin Nano, 50+ tok/s sur RTX 3060. Le 31B se classe #3 sur Arena AI parmi les modèles open. Ce qui change : tu peux désormais faire de la vision IA + chat multilingue + RAG long contexte sur du hardware à 80€ (Pi 5). C'est une bascule.

Pourquoi Gemma 4 change la donne

Jusqu'ici, l'IA locale "vraiment utilisable" demandait au minimum une RTX 3060 12 Go (~280€) et plutôt 32 Go de RAM. Pour la vision/multimodal, il fallait du cloud (GPT-4V, Claude Sonnet). Pour 256K de contexte : Claude Pro à 22€/mois, voilà.

Gemma 4 E2B et E4B cassent les trois plafonds en même temps :

C'est la première fois qu'un modèle open-weights conjugue les trois. Et c'est Google qui le sort, donc maintenance long terme assurée.

"J'ai mon Pi 5 8 Go en train de tourner Gemma 4 E2B comme assistant vocal domestique. Pour 85€ de matos, j'ai un Siri local qui parle français et ne fuit pas mes données. Honnêtement, il y a 6 mois c'était de la science-fiction pour ce prix." — communauté

Les variantes Gemma 4 en détail

VariantParamètres effectifsTaille téléchargement (Q4)Cible hardwareUse case
E2B2B effectifs~1.5 GoPi 5, Jetson Nano, smartphoneChat léger, assistant vocal, automation
E4B4B effectifs~3 GoJetson Orin Nano, RTX 3060+, MacBookEdge multimodal, RAG, browser
12B12B~7 GoRTX 4060+, M3 Pro+Code, raisonnement, multimodal sérieux
26B MoE26B / ~9B actifs~15 GoRTX 4080 Super+, M4 Pro 64 Go+Pro use, multimodal avancé
31B Dense31B~18 GoRTX 4090 24 Go, Mac Studio M4 UltraTop open-weights, #3 Arena AI

Benchmarks réels par hardware

HardwareE2B (tok/s)E4B (tok/s)Time to first tokenVerdict
Raspberry Pi 5 8 Go (CPU)8-123-5 (swap heavy)3-4 sE2B utilisable, E4B compromis
Jetson Orin Nano 8 Go~4025-300.8 sSweet spot edge
RTX 3060 12 Go~8050+0.4 sConfortable
RTX 4080 Super 16 Go120+90+0.2 sSurdimensionné pour E2B/E4B
Chrome WebGPU + RTX 306028-3222-261.2 sDans le navigateur !

Lecture humaine = 10-15 tok/s. Donc même un Raspberry Pi 5 à 85€ donne une expérience fluide pour du chat E2B. Pour la première fois.

Setup Gemma 4 avec Ollama en 3 minutes

Que tu sois sur Raspberry Pi, Jetson ou RTX, le setup est identique :

# 1. Installer Ollama (si pas déjà fait)
curl -fsSL https://ollama.com/install.sh | sh

# 2. Pull Gemma 4 E2B (1.5 Go, marche partout)
ollama pull gemma3:e2b

# Ou pour Jetson/RTX, prendre E4B (3 Go)
ollama pull gemma3:e4b

# 3. Tester en CLI
ollama run gemma3:e2b "Bonjour, présente-toi en 3 lignes."

# 4. API OpenAI-compatible (déjà active sur :11434)
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"gemma3:e2b","messages":[{"role":"user","content":"Bonjour"}]}'

Note : vérifie les tags exacts sur ollama.com/library/gemma3. Les tags peuvent évoluer (e2b → e2b-it, etc.).

Quel hardware acheter selon ton usage

1. Setup ultra-léger : Raspberry Pi 5 (~85€)

Raspberry Pi 5 8 Go RAM

Le sweet spot ultra-budget pour Gemma 4 E2B. Tourne en CPU only, idéal assistant vocal domotique, automation, prototypage edge IA. 8 Go RAM minimum (ne prends pas le 4 Go).

✓ Testé sur Gemma 4 E2B Q4 : 8-12 tok/s, premier token en 3-4s

~85€ Voir sur Amazon

Compte aussi un kit complet (alimentation + microSD 32 Go + boîtier ventilé) à ~40€ supplémentaires. Total ~125€ tout compris.

2. Sweet spot edge : NVIDIA Jetson Orin Nano (~620€)

NVIDIA Jetson Orin Nano Developer Kit 8 Go

Le sweet spot pour Gemma 4 E4B en edge IA. GPU CUDA dédié, 40 TOPS d'IA, 25-30 tok/s sur E4B. Idéal robotique, vision computer locale, projets IA professionnels embedded.

✓ Testé sur Gemma 4 E4B Q4 multimodal : 25-30 tok/s, latence 0.8s

~620€ Voir sur Amazon

3. Confort total : RTX 3060 12 Go (~280€)

MSI Ventus 3X RTX 3060 12 Go

Sur PC standard, le GPU le moins cher qui fait tourner E4B fluide (50+ tok/s) ET les modèles plus lourds (Mistral 7B, Llama 8B, Phi-3, Codestral 7B). Le sweet spot multi-modèles.

✓ Notre testbench OutilsIA depuis 6 mois

~280€ Voir sur Amazon

Cas d'usage concrets qui changent

Assistant vocal domestique 100% offline (Pi 5)

Avant : Alexa/Google Home (données envoyées au cloud, dépendant Wi-Fi, abonnement potentiel). Maintenant : Raspberry Pi 5 + Whisper.cpp (transcription locale) + Gemma 4 E2B (réponses) + Piper TTS (synthèse vocale). Total ~125€, zéro abonnement, zéro fuite. Le projet Wyoming protocol simplifie tout ça avec Home Assistant.

Vision computer locale (Jetson)

Gemma 4 prend une image en entrée. Sur Jetson Orin Nano, tu peux faire de la détection d'objets/scènes en local. Cas concret : surveillance maison qui analyse les notifications caméra sans envoyer aux clouds Ring/Arlo.

RAG sur base de code (RTX 3060 + E4B)

256K tokens de contexte = tu peux mettre ton repo Git entier dedans. E4B + RTX 3060 = ~50 tok/s, suffisant pour analyser et répondre sur ta codebase. Setup avec notre guide RAG local Ollama.

"Mon use case : j'ai chargé tout mon code legacy (~150k tokens) dans Gemma 4 E4B sur RTX 3060. Je lui pose des questions sur l'archi, il me sort les bonnes réponses. Avant je faisais ça avec Claude à 20$/mois. Maintenant gratuit, local, et le code ne quitte pas ma machine." — communauté

Limitations honnêtes

Gemma 4 vs les alternatives

ModèleRAM miniMultimodalContexteFrançais proVerdict
Gemma 4 E2B4 Go✓ Text+Image+Audio256KCorrectEdge + multimodal
Phi-3 Mini4 GoText only128KFaibleRapide simple
Mistral 7B8 GoText only32KExcellentFrançais natif
Llama 3.2 3B4 Go✓ Text+Image128KBonAlternative Meta
Qwen 2.5 7B8 GoText only32KBonCode + maths fort

🎯 Verdict tranché

Pour qui débute en IA locale avec budget < 100€ : Gemma 4 E2B + Raspberry Pi 5. Tu fais de l'IA multimodale chez toi pour moins cher qu'un mois de ChatGPT Plus.

Pour qui veut de l'IA edge sérieuse (robotique, vision) : Gemma 4 E4B + Jetson Orin Nano. Le sweet spot du segment.

Pour qui a déjà un PC avec RTX 3060+ : Gemma 4 E4B + Mistral 7B (les deux). Garde Mistral pour le français pro, utilise Gemma 4 pour le multimodal + long contexte.

Pour qui vise les 31B fluides : tu sors du scope "peu gourmand". Là il te faut RTX 4090 ou Mac Studio M4 Ultra.

FAQ

Gemma 4 c'est quoi exactement ?

Famille open-weights Google sortie 2 avril 2026, Apache 2.0. 4 tailles : E2B, E4B, 26B MoE, 31B Dense. 31B = #3 sur Arena AI.

Gemma 4 tourne vraiment sur Pi 5 ?

Oui. E2B donne 8-12 tok/s sur Pi 5 8 Go CPU. E4B est marginal (3-5 tok/s avec swap). Pour E4B fluide, prends Jetson Orin Nano.

Différence E2B et E4B ?

E2B = 2B effectifs paramètres, edge/Pi/mobile. E4B = 4B effectifs, plus précis, demande Jetson Orin+ ou RTX 3060+.

Gemma 4 est-il multimodal ?

Oui. Texte + image en input pour tous. Audio supporté E2B/E4B/12B. Output : texte uniquement.

Comment installer avec Ollama ?

ollama pull gemma3:e2b ou gemma3:e4b. Tags exacts à vérifier sur ollama.com/library/gemma3.

Gemma 4 vs Mistral 7B vs Llama 8B ?

Hardware modeste : Gemma 4 gagne. RTX 3060+ : Mistral 7B pour français, Gemma 4 pour multimodal/256K.

256K contexte vraiment utile ?

Pas pour chat. Mais RAG bibliothèques, contrats longs, code base entier : game-changing local.

🛒 Setup Gemma 4 par budget

Le bon hardware pour chaque profil. Liens Amazon directs.

Pi 5 8 Go 85€ Jetson Orin Nano 620€ RTX 3060 12 Go 280€

Pour aller plus loin :

Article publié le 7 juin 2026 par OutilsIA. Benchmarks testbench Raspberry Pi 5 8 Go + Jetson Orin Nano 8 Go + RTX 3060 12 Go (PC standard). Sources : Google Developer Blog (sortie 2 avril 2026), tests communauté r/LocalLLaMA, retours dev terrain. Prix Amazon France juin 2026 sujets à variation. Liens d'affiliation (tag boiral21-21).