MarkItDown

2026.04.23LIBRARYPythonz29k

C'EST QUOI ?

MarkItDown est un utilitaire Python open-source de Microsoft qui convertit à peu près tous les formats de documents en Markdown exploitable. PDF, Word, Excel, PowerPoint, images, audio, HTML, CSV, ZIP, EPUB, URLs YouTube : tout passe à la moulinette pour produire du texte structuré prêt à être consommé par un LLM ou un pipeline d'analyse.

POURQUOI C'EST INTÉRESSANT ?

Une seule lib, vingt formats : PDF, DOCX, XLSX, PPTX, HTML, CSV, JSON, XML, images, audio, ZIP, EPUB, YouTube. Fini les dix parsers différents dans votre projet.
Orienté LLM, pas humain : la conversion préserve la structure (titres, listes, tableaux, liens) sans bruit visuel. C'est du texte propre pour nourrir un contexte modèle.
CLI + API Python : scriptable en shell pour du batch, importable dans votre code pour du traitement à la volée.
Dépendances optionnelles : vous installez uniquement les formats dont vous avez besoin (pip install markitdown[pdf,docx]), le reste reste léger.
Extensible : OCR via Azure Document Intelligence, descriptions d'images générées par GPT-4o, système de plugins tiers. Les gros cas d'usage ont une réponse.

CAS D'USAGE

Préparer un corpus documentaire hétérogène pour un RAG ou un fine-tuning
Convertir des rapports Excel/PowerPoint en Markdown avant ingestion dans un index vectoriel
Extraire le texte de transcriptions audio ou d'images scannées pour analyse
Normaliser des pièces jointes d'emails en un format unique côté backend

#markdown #python #llm #document-conversion #cli #ocr #ai

SOURCES

DÉPÔT	https://github.com/microsoft/markitdown
LICENCE	MIT