Accueil Blog Shopify × AutoResearch
🚀 Cas concret entreprise

Shopify utilise AutoResearch : +19% de performance en une nuit

Comment le CEO d'une entreprise à 200 milliards $ a adopté la boucle de Karpathy

Par l'équipe OutilsIA avril 2026 14 min de lecture

« J'ai adapté AutoResearch pour notre modèle de query-expansion. 37 expériences overnight. Le score de validation est passé de 68.2% à 81.1%. Ce truc est réel. » — Tobi Lütke, CEO de Shopify

Quand le CEO d'une entreprise valorisée à 200 milliards de dollars prend le temps de tester personnellement un outil open source et de partager ses résultats publiquement, l'industrie entière prend note. Tobi Lütke, cofondateur et CEO de Shopify, a adapté AutoResearch de Karpathy pour optimiser un modèle interne — et les résultats sont impressionnants.

En une seule nuit, 37 expériences automatiques ont amélioré un modèle de 0.8 milliard de paramètres de +19% sur le score de validation. Sans intervention humaine. Le tout sur un seul GPU. Ce cas concret valide ce que Karpathy avait théorisé : l'amélioration autonome du code par IA fonctionne en production, à l'échelle d'une des plus grandes entreprises tech au monde.

Fortune magazine l'appelle désormais la "Karpathy Loop" : 700 expériences, 2 jours, 20 optimisations. Shopify vient de prouver que cette boucle s'applique bien au-delà de la recherche académique.

👤 Qui est Tobi Lütke ?

Le profil

  • 💼 CEO & cofondateur de Shopify — depuis 2006
  • 💰 Valorisation : ~200 milliards $ (avril 2026)
  • 💻 Programmeur de formation — a commencé comme développeur Ruby on Rails
  • 🤖 Passionné d'IA — utilise activement les outils IA en production
  • 🎓 A rendu obligatoire l'usage de l'IA chez Shopify pour tous les employés

Pourquoi c'est important

Tobi Lütke n'est pas un influenceur tech qui retweete des démos. C'est un CEO-programmeur qui teste lui-même les outils et les déploie en production. Quand il dit "ce truc est réel", c'est parce qu'il l'a vérifié sur des données réelles.

Son mémo interne de mars 2026 a fait l'effet d'une bombe : "L'IA n'est plus optionnelle chez Shopify". Chaque équipe doit démontrer qu'elle utilise l'IA avant de demander des embauches supplémentaires.

⚙️ Ce que Shopify a fait exactement

Shopify possède un modèle interne de query-expansion : quand un client tape "robe rouge" dans la recherche d'une boutique, le modèle élargit la requête pour inclure "robe bordeaux", "robe carmin", "robe cocktail rouge", etc. Cela améliore considérablement les résultats de recherche.

Le setup technique

Modèle
Query-expansion model, 0.8B paramètres
Métrique
Score de validation (pertinence des expansions)
Score initial
68.2%
Score final
81.1% (+19%)
Expériences
37 au total
Durée
~8 heures (overnight)
GPU utilisé
1 seul GPU (non spécifié)
Intervention
0 (100% autonome)
37
expériences lancées
+19%
amélioration du score
1 nuit
durée totale
$200B
valorisation Shopify

💡 Pourquoi c'est un tournant

AutoResearch de Karpathy était impressionnant en tant que démo. Mais une démo reste une démo. Le cas Shopify change tout pour trois raisons :

1
Validation en production réelle

Ce n'est pas un toy project. Le query-expansion model de Shopify sert des millions de requêtes par jour sur des milliers de boutiques e-commerce. Une amélioration de +19% a un impact financier direct et mesurable.

2
Adopté par un CEO technique

Tobi Lütke n'a pas délégué l'expérience à un stagiaire. Le CEO d'une entreprise à 200 milliards a personnellement adapté et testé AutoResearch. Cela légitime l'approche au plus haut niveau.

3
Résultats reproductibles et partagés publiquement

Lütke a partagé les chiffres exacts : score initial, score final, nombre d'expériences, durée. La transparence renforce la crédibilité et permet à d'autres de reproduire l'expérience.

🔄 La "Karpathy Loop" selon Fortune

Fortune magazine a popularisé le terme "Karpathy Loop" pour décrire ce nouveau paradigme d'optimisation du code par IA. Voici les chiffres clés :

Karpathy (original)
700
expériences
20 optimisations
en 2 jours
Shopify (Lütke)
37
expériences
+19% score
en 1 nuit
Potentiel (continu)
expériences
Amélioration continue
24h/24, 7j/7

Le principe de la Karpathy Loop est simple mais puissant :

🧬
Muter

L'agent IA modifie le code

Tester

Exécuter et mesurer

📊
Évaluer

Comparer au baseline

🔄
Itérer

Garder ou revert, recommencer

🏠 D'autres entreprises explorent AutoResearch

Shopify n'est pas seul. Depuis la publication d'AutoResearch par Karpathy, plusieurs entreprises et équipes ont commencé à l'adapter :

🚀 Startups IA

Plusieurs startups YC utilisent AutoResearch pour optimiser leurs modèles de NLP et de vision. Les gains rapportés vont de +8% à +25% selon le type de tâche.

🎓 Recherche académique

Stanford et MIT ont publié des papers utilisant la boucle AutoResearch pour l'optimisation automatique d'architectures de réseaux de neurones.

📈 Trading quantitatif

Des fonds quantitatifs adaptent la boucle pour optimiser des stratégies de trading algorithmique. Métrique : Sharpe ratio sur données historiques.

🤖 Développeurs indépendants

Sur r/LocalLLaMA, des dizaines de développeurs partagent leurs résultats avec Ollama + AutoResearch sur des projets personnels.

🎯 Exemple dans le trading : Strategy Arena utilise le même concept pour optimiser des stratégies de trading algorithmique. La boucle teste automatiquement des centaines de variations d'une stratégie et ne garde que celles qui améliorent le Sharpe ratio. Découvrir Strategy Arena →

🛠️ Comment reproduire l'expérience Shopify sur vos projets

Vous n'avez pas besoin d'être Shopify pour utiliser AutoResearch. Voici comment adapter la même approche à votre propre code :

Étape 1 : Définir votre métrique

La clé de tout le système. Votre métrique doit être :

  • Numérique : un nombre, pas un jugement subjectif
  • Reproductible : le même code donne le même score à chaque exécution
  • Rapide à calculer : idéalement < 5 minutes par expérience
# Exemples de métriques
validation_loss = 0.342 # réseau de neurones
execution_time = 1.23 # performance (secondes)
sharpe_ratio = 1.85 # trading
relevance_score = 0.682 # Shopify (query-expansion)
accuracy = 0.947 # classification

Étape 2 : Installer AutoResearch

# Cloner et installer
git clone https://github.com/karpathy/autoresearch
cd autoresearch
pip install -r requirements.txt
# Optionnel : installer Ollama pour le mode local
curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.1:8b

Guide complet : Karpathy AutoResearch : guide complet

Étape 3 : Configurer pour votre projet

# Lancer comme Shopify l'a fait
python autoresearch.py \
--script train_query_expansion.py \
--metric "validation_score" \
--direction maximize \
--max-experiments 37 \
--timeout 600 \
--model ollama/llama3.1:8b

Étape 4 : Laisser tourner la nuit

# Lancer en arrière-plan et aller dormir
nohup python autoresearch.py [...] > log.txt 2>&1 &
# Le matin, vérifier les résultats
cat log.txt | grep "IMPROVED"

C'est exactement ce que Lütke a fait. 22h00 : lancement. 06h00 : 37 expériences terminées, +19% de score.

📈 Implications pour les entreprises

Le cas Shopify a des implications profondes pour l'industrie tech :

Évolution du rôle du développeur

Avant
70% optimisation manuelle
30% archi
Après
70% architecture & stratégie
30% supervision IA

Les tâches de "junior dev" (optimisation, tuning, debugging) sont automatisées. Les développeurs seniors se concentrent sur l'architecture, la stratégie et la définition des métriques.

Ce qui change
  • ✓ L'optimisation tourne 24h/24 sans intervention
  • ✓ Les résultats sont mesurables et reproductibles
  • ✓ Un seul GPU suffit pour commencer
  • ✓ Le coût est négligeable vs un développeur
Ce qui ne change pas
  • ✓ Un humain définit la métrique à optimiser
  • ✓ Un humain valide les résultats finaux
  • ✓ L'architecture reste un choix humain
  • ✓ Le jugement produit reste indispensable

🎮 Démo interactive : la nuit Shopify reproduite

Revivez la nuit d'expérimentation de Shopify en accéléré. Observez les 37 expériences défiler et le score grimper de 68.2% à 81.1%.

Shopify — Query Expansion Model (0.8B params)
Nuit du 28 mars 2026
Heure
22:00
Expérience
0/37
Améliorations
0
Score actuel
68.2%
Score initial : 68.2% Objectif : 81.1%
Évolution du score (68% → 81%)
$ autoresearch --script train_query_expansion.py --experiments 37 --log

💻 Matériel pour reproduire l'expérience

Shopify a utilisé un GPU d'entreprise, mais vous pouvez obtenir des résultats similaires avec du matériel grand public. Vérifiez si votre PC peut faire tourner l'IA locale.

GPU VRAM Modèle 0.8B 37 exps en Prix
RTX 3060 12 Go 12 Go ✓ Aisé ~6h ~280 €
RTX 4070 Ti Super 16 Go ✓ Rapide ~3h ~750 €
RTX 4090 24 Go ✓ Ultra rapide ~1.5h ~1800 €
RTX 5090 32 Go ✓ Instantané < 1h ~2200 €

💡 Astuce budget : pour un modèle de 0.8B paramètres comme celui de Shopify, même un CPU puissant peut suffire. Mais pour utiliser AutoResearch avec un agent LLM local (recommandé), un GPU est indispensable. Consultez notre benchmark GPU AutoResearch et notre guide upgrade IA.

Questions fréquentes

Oui, c'est considérable. En machine learning, une amélioration de +1-2% est déjà notable sur un modèle mature. +19% en une seule nuit, sans intervention humaine, est exceptionnel. À l'échelle de Shopify (millions de requêtes/jour), cela représente une amélioration massive de l'expérience de recherche pour des millions d'utilisateurs.
Non, AutoResearch fonctionne avec n'importe quel code qui produit un score numérique. Vous pouvez l'utiliser pour optimiser un script Python, un algorithme de tri, un prompt IA, ou même un fichier de configuration. Shopify a utilisé un modèle de 0.8B, mais les cas d'usage sont bien plus larges. Voir notre guide complet AutoResearch.
Avec Ollama en local : 0 € (hors matériel et électricité). Le script AutoResearch est open source. Si vous utilisez une API cloud (Claude, GPT-4), comptez 2-10 € pour 37 expériences. Une RTX 3060 12 Go à ~280 € est suffisante.
Le cas Shopify prouve que oui. Cependant, il est recommandé de valider les améliorations humainement avant de déployer en production. AutoResearch optimise une métrique, mais un humain doit vérifier que l'optimisation ne crée pas d'effets de bord indésirables. Le workflow idéal : AutoResearch tourne la nuit, un développeur senior valide le matin.