Skip to content

Comment archiver un site web avec des sauvegardes visuelles

Configurez des sauvegardes visuelles automatisées avec l'API de capture. Capturez chaque page en PNG et PDF, stockez dans S3 ou Google Drive et maintenez une archive horodatée.

Pourquoi les sauvegardes visuelles sont importantes

Le code source HTML et les dumps de base de données capturent les données — mais pas l'apparence de la page. Après un piratage, un déploiement raté ou un litige juridique, vous avez besoin de preuves visuelles horodatées de ce que les visiteurs voyaient exactement. Une sauvegarde visuelle de site est une capture (ou un PDF) de chaque page, stockée dans votre stockage cloud, capturée automatiquement selon un planning.

Vue d'ensemble de l'architecture

  1. Découverte des pages — utilisez l'API de crawl de site pour trouver chaque URL de votre domaine, ou maintenez une liste d'URL depuis votre sitemap.
  2. Capture à intervalles — planifiez des captures quotidiennes, hebdomadaires ou mensuelles par lots via cron ou un planificateur.
  3. Stockage avec structure de dates — livrez vers S3 ou Google Drive avec des chemins basés sur la date pour parcourir par date.
  4. Rétention et rotation — définissez des règles de cycle de vie sur votre bucket de stockage pour archiver ou supprimer les anciennes captures.

Configuration du planning

Utilisez un cron job, une GitHub Action ou un déclencheur planifié Zapier pour appeler l'API de lots quotidiennement :

# Quotidien à 6h UTC
0 6 * * * curl -X POST "https://api.screenshotcenter.com/api/batch/create" \
  -H "X-API-KEY: $API_KEY" \
  -F "urls=@/data/sitemap-urls.txt" \
  -F 'options={"full_page":true,"pdf":true,"apps":[{"app":"s3","bucket":"website-backups","path":"{yyyy}/{mm}/{dd}/{domain}/{id}"}]}'

Stockage organisé par date

Le modèle de chemin {yyyy}/{mm}/{dd} crée une structure de dossiers comme :

website-backups/
  2026/02/19/example.com/abc123.png
  2026/02/19/example.com/abc123.pdf
  2026/02/20/example.com/def456.png
  ...

Cela rend trivial la comparaison entre la version d'hier et celle d'aujourd'hui — il suffit de comparer les deux dossiers de date.

Double capture PDF + PNG

Pour des sauvegardes de qualité archivistique, capturez à la fois le PNG (référence visuelle) et le PDF (prêt à imprimer, texte sélectionnable) dans le même lot. Le PDF préserve le texte sélectionnable et les liens, tandis que le PNG fournit le rendu exact en pixels.

Monitoring et alertes

Après chaque lot terminé, vérifiez le CSV de résultats pour les échecs. Envoyez une notification Slack via l'intégration Slack si des URL ont échoué, pour que votre équipe puisse enquêter avant le prochain lancement planifié.

Étapes suivantes

Voir captures de conformité pour les patterns d'archivage légal, et intégration S3 pour la configuration détaillée du stockage.