C'EST QUOI ?
Crawlee est le framework Node.js/TypeScript d'Apify pour construire des crawlers web qui tiennent la route. Il unifie derrière une seule API le scraping HTTP classique (Cheerio, JSDOM) et l'automatisation navigateur (Playwright, Puppeteer). L'objectif : produire des scrapers qui ressemblent à de vrais utilisateurs et passent au travers des protections anti-bot modernes sans bricolage maison.
POURQUOI C'EST INTÉRESSANT ?
- API unifiée HTTP et headless : Même logique de routing, même gestion de queue, que vous tapiez du Cheerio ou du Playwright. Changer de moteur devient une décision d'implémentation, pas un rewrite.
- Anti-détection par défaut : Empreintes TLS réalistes, headers navigateur cohérents, rotation de sessions et de proxies. Les configurations par défaut sont pensées pour ne pas se faire jeter par Cloudflare ou DataDome.
- Queue persistante intelligente : Requêtes dédupliquées automatiquement, parcours BFS/DFS au choix, reprise après crash. L'état du crawl survit aux interruptions.
- Autoscaling natif : Le framework ajuste la concurrence en fonction du CPU et de la RAM disponibles. Pas besoin de benchmarker manuellement, il s'adapte au matériel.
- TypeScript first : Types complets, autocomplete IDE solide, intégration propre dans des projets Node modernes. Le CLI scaffolde un projet prêt à l'emploi.
- Écosystème Apify : Même si la lib tourne en local, elle se déploie sans friction sur la plateforme Apify pour de la production managée si besoin.
CAS D'USAGE
- Scraping de sites JavaScript-heavy qui nécessitent un vrai moteur navigateur
- Collecte massive de données pour entraîner des LLMs ou alimenter des pipelines RAG
- Monitoring de prix, de stocks ou de contenus sur des catalogues e-commerce
- Extraction structurée depuis des SaaS qui n'exposent pas d'API publique
- Veille concurrentielle automatisée avec déduplication et reprise sur incident
