Crawlee

2026.04.15FRAMEWORKTypeScriptz29k

C'EST QUOI ?

Crawlee est le framework Node.js/TypeScript d'Apify pour construire des crawlers web qui tiennent la route. Il unifie derrière une seule API le scraping HTTP classique (Cheerio, JSDOM) et l'automatisation navigateur (Playwright, Puppeteer). L'objectif : produire des scrapers qui ressemblent à de vrais utilisateurs et passent au travers des protections anti-bot modernes sans bricolage maison.

POURQUOI C'EST INTÉRESSANT ?

API unifiée HTTP et headless : Même logique de routing, même gestion de queue, que vous tapiez du Cheerio ou du Playwright. Changer de moteur devient une décision d'implémentation, pas un rewrite.
Anti-détection par défaut : Empreintes TLS réalistes, headers navigateur cohérents, rotation de sessions et de proxies. Les configurations par défaut sont pensées pour ne pas se faire jeter par Cloudflare ou DataDome.
Queue persistante intelligente : Requêtes dédupliquées automatiquement, parcours BFS/DFS au choix, reprise après crash. L'état du crawl survit aux interruptions.
Autoscaling natif : Le framework ajuste la concurrence en fonction du CPU et de la RAM disponibles. Pas besoin de benchmarker manuellement, il s'adapte au matériel.
TypeScript first : Types complets, autocomplete IDE solide, intégration propre dans des projets Node modernes. Le CLI scaffolde un projet prêt à l'emploi.
Écosystème Apify : Même si la lib tourne en local, elle se déploie sans friction sur la plateforme Apify pour de la production managée si besoin.

CAS D'USAGE

Scraping de sites JavaScript-heavy qui nécessitent un vrai moteur navigateur
Collecte massive de données pour entraîner des LLMs ou alimenter des pipelines RAG
Monitoring de prix, de stocks ou de contenus sur des catalogues e-commerce
Extraction structurée depuis des SaaS qui n'exposent pas d'API publique
Veille concurrentielle automatisée avec déduplication et reprise sur incident

#javascript #typescript #web-scraping #crawler #automation #headless-browser #nodejs

SOURCES

DÉPÔT	https://github.com/apify/crawlee
SITE	https://crawlee.dev
LICENCE	Apache-2.0