Crawlee

Crawlee

C'EST QUOI ?

Crawlee est le framework Node.js/TypeScript d'Apify pour construire des crawlers web qui tiennent la route. Il unifie derrière une seule API le scraping HTTP classique (Cheerio, JSDOM) et l'automatisation navigateur (Playwright, Puppeteer). L'objectif : produire des scrapers qui ressemblent à de vrais utilisateurs et passent au travers des protections anti-bot modernes sans bricolage maison.

POURQUOI C'EST INTÉRESSANT ?

  • API unifiée HTTP et headless : Même logique de routing, même gestion de queue, que vous tapiez du Cheerio ou du Playwright. Changer de moteur devient une décision d'implémentation, pas un rewrite.
  • Anti-détection par défaut : Empreintes TLS réalistes, headers navigateur cohérents, rotation de sessions et de proxies. Les configurations par défaut sont pensées pour ne pas se faire jeter par Cloudflare ou DataDome.
  • Queue persistante intelligente : Requêtes dédupliquées automatiquement, parcours BFS/DFS au choix, reprise après crash. L'état du crawl survit aux interruptions.
  • Autoscaling natif : Le framework ajuste la concurrence en fonction du CPU et de la RAM disponibles. Pas besoin de benchmarker manuellement, il s'adapte au matériel.
  • TypeScript first : Types complets, autocomplete IDE solide, intégration propre dans des projets Node modernes. Le CLI scaffolde un projet prêt à l'emploi.
  • Écosystème Apify : Même si la lib tourne en local, elle se déploie sans friction sur la plateforme Apify pour de la production managée si besoin.

CAS D'USAGE

  • Scraping de sites JavaScript-heavy qui nécessitent un vrai moteur navigateur
  • Collecte massive de données pour entraîner des LLMs ou alimenter des pipelines RAG
  • Monitoring de prix, de stocks ou de contenus sur des catalogues e-commerce
  • Extraction structurée depuis des SaaS qui n'exposent pas d'API publique
  • Veille concurrentielle automatisée avec déduplication et reprise sur incident

SOURCES

DÉPÔThttps://github.com/apify/crawlee
SITEhttps://crawlee.dev
LICENCEApache-2.0