MarkItDown

MarkItDown

C'EST QUOI ?

MarkItDown est un utilitaire Python open-source de Microsoft qui convertit à peu près tous les formats de documents en Markdown exploitable. PDF, Word, Excel, PowerPoint, images, audio, HTML, CSV, ZIP, EPUB, URLs YouTube : tout passe à la moulinette pour produire du texte structuré prêt à être consommé par un LLM ou un pipeline d'analyse.

POURQUOI C'EST INTÉRESSANT ?

  • Une seule lib, vingt formats : PDF, DOCX, XLSX, PPTX, HTML, CSV, JSON, XML, images, audio, ZIP, EPUB, YouTube. Fini les dix parsers différents dans votre projet.
  • Orienté LLM, pas humain : la conversion préserve la structure (titres, listes, tableaux, liens) sans bruit visuel. C'est du texte propre pour nourrir un contexte modèle.
  • CLI + API Python : scriptable en shell pour du batch, importable dans votre code pour du traitement à la volée.
  • Dépendances optionnelles : vous installez uniquement les formats dont vous avez besoin (pip install markitdown[pdf,docx]), le reste reste léger.
  • Extensible : OCR via Azure Document Intelligence, descriptions d'images générées par GPT-4o, système de plugins tiers. Les gros cas d'usage ont une réponse.

CAS D'USAGE

  • Préparer un corpus documentaire hétérogène pour un RAG ou un fine-tuning
  • Convertir des rapports Excel/PowerPoint en Markdown avant ingestion dans un index vectoriel
  • Extraire le texte de transcriptions audio ou d'images scannées pour analyse
  • Normaliser des pièces jointes d'emails en un format unique côté backend