L’IA Scrappe les Sites Web : Un Défi pour les PME

Imaginez que vous vous réveillez un matin et découvrez que votre site e-commerce est complètement à l’arrêt. C’est exactement ce qui est arrivé à Oleksandr Tomchuk, PDG de Triplegangers, une PME qui vend des modèles 3D. Mais le coupable n’était pas une cyberattaque classique : c’était un bot d’OpenAI qui aspirait frénétiquement tout le contenu du site.

Un bot IA s’attaque à un site e-commerce

Triplegangers est une petite entreprise de 7 personnes qui a passé plus de 10 ans à constituer la plus grande base de données de « doublons humains numériques » du web. Leur site compte plus de 65 000 produits, chacun avec plusieurs photos détaillées. C’était une mine d’or pour les bots d’IA en quête de données à aspirer.

Le bot d’OpenAI a littéralement écrasé le site de Triplegangers, envoyant des centaines de milliers de requêtes pour télécharger chaque image et description. Malgré les conditions d’utilisation qui interdisaient ce scrapping, le site a été mis à genoux pendant des heures, comme lors d’une attaque DDoS.

Leurs crawlers écrasaient notre site, c’était essentiellement une attaque DDoS.

– Oleksandr Tomchuk, PDG de Triplegangers

Les PME face au Far West de l’IA

Pour les petites entreprises comme Triplegangers, c’est le Far West. Les géants de l’IA aspirent les données sans demander permission, et c’est aux sites de se protéger avec des fichiers robots.txt spécifiques. Sinon, les bots se servent allègrement, quitte à mettre le site hors-service et faire flamber la facture d’hébergement.

Le plus rageant pour Triplegangers, c’est l’impossibilité de savoir exactement ce qu’OpenAI a aspiré, et encore moins de faire retirer ce contenu. Pourtant, quand on vend des modèles 3D de vraies personnes, les droits et le RGPD sont des enjeux cruciaux. Mais les géants de l’IA s’en moquent.

C’est effrayant car il semble y avoir une faille que ces entreprises exploitent pour aspirer les données.

– Oleksandr Tomchuk, PDG de Triplegangers

Comment se protéger du scrapping IA ?

Pour Oleksandr Tomchuk, la plupart des sites web n’ont aucune idée qu’ils se font aspirer leurs données. Il conseille à toutes les PME de :

  • Analyser régulièrement les logs serveur pour repérer l’activité des bots IA
  • Mettre en place un fichier robots.txt correctement configuré
  • Bloquer les bots identifiés via des outils comme Cloudflare

Mais surtout, il appelle les géants de la tech à plus d’éthique et de transparence. Plutôt que d’aspirer les données sans vergogne, les bots IA devraient demander la permission aux sites qu’ils crawlent. Un changement de mentalité qui semble encore loin, au vu de la ruée vers l’or actuelle autour de l’IA.

En attendant, les PME n’ont pas d’autre choix que de protéger leurs données comme elles peuvent. Car dans ce Far West numérique, seul le fichier robots.txt semble faire office de shérif. Un bien maigre rempart face aux bots IA déterminés à aspirer tout le web, sans se soucier des dégâts causés aux petits acteurs.

À lire également