Also Like

Les changements à venir de Reddit tentent de protéger la plate-forme contre les robots d'exploration IA

Les changements à venir de Reddit tentent de protéger la plate-forme contre les robots d'exploration IA

Reddit a annoncé mardi la mise à jour de son protocole d'exclusion de robots (fichier robots.txt), qui indique aux robots Web automatisés s'ils sont autorisés à explorer un site.

Historiquement, le fichier robots.txt était utilisé pour permettre aux moteurs de recherche d'explorer un site et de diriger ensuite les internautes vers le contenu. Cependant, avec l’essor de l’IA, les sites Web sont supprimés et utilisés pour former des modèles sans reconnaître la source réelle du contenu.

Parallèlement au fichier robots.txt mis à jour, Reddit continuera à limiter le débit et à empêcher les robots et robots d'exploration inconnus d'accéder à sa plate-forme. La société a déclaré à TechCrunch que les robots et les robots d'exploration seront limités ou bloqués s'ils ne respectent pas la politique de contenu public de Reddit et n'ont pas d'accord avec la plateforme.

Reddit affirme que la mise à jour ne devrait pas affecter la majorité des utilisateurs ou des acteurs de bonne foi, comme les chercheurs et les organisations, comme Internet Archive. Au lieu de cela, la mise à jour est conçue pour dissuader les entreprises d’IA de former leurs grands modèles linguistiques sur le contenu Reddit. Bien entendu, les robots d’exploration IA pourraient ignorer le fichier robots.txt de Reddit.

L'annonce intervient quelques jours après qu'une enquête de Wired a révélé que Perplexity, une startup de recherche basée sur l'IA, volait et récupérait du contenu. Wired a constaté que Perplexity semble ignorer les demandes de ne pas supprimer son site Web, même s'il a bloqué le démarrage dans son fichier robots.txt. Le PDG de Perplexity, Aravind Srinivas, a répondu aux affirmations et a déclaré que le fichier robots.txt n'est pas un cadre juridique.

Les changements à venir de Reddit n'affecteront pas les entreprises avec lesquelles il a conclu un accord. Par exemple, Reddit a conclu un accord de 60 millions de dollars avec Google qui permet au géant de la recherche de former ses modèles d'IA sur le contenu de la plateforme sociale. Avec ces changements, Reddit signale aux autres entreprises qui souhaitent utiliser les données de Reddit pour la formation en IA qu'elles devront payer.

"Toute personne accédant au contenu de Reddit doit respecter nos politiques, y compris celles en place pour protéger les redditors", a déclaré Reddit dans son article de blog . "Nous sommes sélectifs quant aux personnes avec lesquelles nous travaillons et nous accordons un accès à grande échelle au contenu Reddit."

Cette annonce n'est pas une surprise, puisque Reddit a publié il y a quelques semaines une nouvelle politique conçue pour guider la manière dont les données de Reddit sont accédées et utilisées par les entités commerciales et autres partenaires.

Commentaires