C'EST QUOI ?
MarkItDown est un utilitaire Python open-source de Microsoft qui convertit à peu près tous les formats de documents en Markdown exploitable. PDF, Word, Excel, PowerPoint, images, audio, HTML, CSV, ZIP, EPUB, URLs YouTube : tout passe à la moulinette pour produire du texte structuré prêt à être consommé par un LLM ou un pipeline d'analyse.
POURQUOI C'EST INTÉRESSANT ?
- Une seule lib, vingt formats : PDF, DOCX, XLSX, PPTX, HTML, CSV, JSON, XML, images, audio, ZIP, EPUB, YouTube. Fini les dix parsers différents dans votre projet.
- Orienté LLM, pas humain : la conversion préserve la structure (titres, listes, tableaux, liens) sans bruit visuel. C'est du texte propre pour nourrir un contexte modèle.
- CLI + API Python : scriptable en shell pour du batch, importable dans votre code pour du traitement à la volée.
- Dépendances optionnelles : vous installez uniquement les formats dont vous avez besoin (
pip install markitdown[pdf,docx]), le reste reste léger. - Extensible : OCR via Azure Document Intelligence, descriptions d'images générées par GPT-4o, système de plugins tiers. Les gros cas d'usage ont une réponse.
CAS D'USAGE
- Préparer un corpus documentaire hétérogène pour un RAG ou un fine-tuning
- Convertir des rapports Excel/PowerPoint en Markdown avant ingestion dans un index vectoriel
- Extraire le texte de transcriptions audio ou d'images scannées pour analyse
- Normaliser des pièces jointes d'emails en un format unique côté backend
