Web scraping : quelles sont les règles à respecter ?
Le web scraping est un outil puissant permettant de collecter facilement de grandes quantités de données sur internet. Il a cependant une mauvaise réputation, car mal compris et trop souvent utilisée de façon illégale ou peu éthique. Toutefois, il est tout à fait possible de faire usage de cet outil dans un cadre légal et dans le respect de l’éthique. Découvrez comment dans cet article complet sur le web scraping éthique.
Web scraping : qu’est-ce que c’est
Pour comprendre les règles à respecter pour un bon usage du web scraping ou scraping de données, il faut savoir ce qu’englobe ce terme. Cela passe non seulement par une définition, mais aussi une explication du cadre légal entourant cette activité et qui explique la polémique.
Petite présentation du web scraping
Le terme web scraping vient de l’utilisation combinée de deux anglicismes, à savoir Web (internet) et scraping (participe présent du verbe gratter/racler). Il désigne un ensemble de technique permettant d’extraire des données à partir d’un site web.
Est-ce légal ?
Vu la quantité de données extraite et leur sensibilité, la légalité du web scraping est une question qui se pose inévitablement. Toutefois, faute de normes juridiques applicables à chaque situation, cette dernière dépend de nombreux facteurs.
Le premier de ces facteurs, ce sont les conditions d’utilisations du site web d’où sont extraites les données. De nombreux sites web interdisent en effet explicitement le scraping dans leur charte d’utilisation. Faire du web scraping sur un de ces sites en dépit de cette mention rend automatiquement l’acte illégal.
De même, le web scraping peut être rendu illégal par la nature ainsi que l’usage fait des données recueillies. Ainsi, extraire des données protégées par le droit d’auteur sans autorisation préalable est proscrit. Cet acte constitue en effet une violation de la loi sur la propriété intellectuelle.
L’extraction de données à caractère personnel est aussi illégale dans de nombreux pays du fait de leur sensibilité et des usages qui peuvent en découler. Dans l’Union européenne par exemple, certaines lois comme le Règlement Général sur la protection de données interdisent cette pratique.
Enfin, la légalité du web scraping dépend évidemment de la juridiction lorsque celle-ci existe. Ainsi, aux États-Unis d’Amérique par exemple, l’accès à un système informatique est illégale lorsqu’il se fait sans l’accord du propriétaire en vertu du Computer Fraud and Abuse Act (CFAA). Par conséquent, tout acte de web scraping nécessitant l’accès à un système informatique est illégal aux USA s’il a lieu sans l’autorisation préalable du propriétaire.
Quelles sont les règles à respecter pour un web scraping éthique ?
Bien que l’existence de ces facteurs limitent les possibilités en web scraping, une lueur d’espoir existe. Il est tout à fait possible de pratiquer le scraping de données de façon légale et éthique et ce juste en respectant quelques règles.
En premier lieu, il est nécessaire de lire puis de respecter scrupuleusement les conditions d’utilisation des sites web. Il y sera précisé si le scraping est autorisé et les restrictions éventuelles à sa pratique. Vous devrez vous y conformer pour éviter toute poursuite judiciaire.
Ensuite, vous devez obligatoirement vous conformer aux législations en vigueur dans votre aire géographique sur la protection des données. De même, si vous devez collecter des données à caractères personnelles, assurez-vous de les anonymiser. Ce faisant, vous respecterez la vie privée des gens, rendant ainsi votre scraping éthique et légal.
La troisième règle à suivre consiste à obtenir une autorisation explicite du propriétaire du site avant de scraper ses données. Cette autorisation est obligatoire dans certains pays. Mais, quelle que soit la législation, l’obtenir est une précaution qui vous permettra de travailler la conscience tranquille.
Il est également indispensable que vous veilliez à une utilisation responsable des données issues de votre web scraping. Pour cela, vous devez d’abord respecter la propriété intellectuelle des propriétaires du site. Vous devez aussi ne pas redistribuer les données protégées par le droit d’auteur. Il vous faudra en outre éviter toute utilisation des données extraites à des fins malveillantes (chantage, harcèlement, spam …).
Enfin, pour que votre scraping puisse être éthique, vous devez le documenter. Cela suggère que vous consigniez les sources dont proviennent vos données, les méthodes d’extraction utilisées ainsi que l’utilisation faite de ces données. Vous devrez également rester transparent tout au long de ce processus, surtout si vous publiez les données collectées.
Que retenir ?
Le scraping des données est une activité sensible consistant à collecter une grande quantité de données à partir de sites internet. De par la nature de cette activité et le caractère sensible des données sujettes à la collecte, son caractère légal semble un peu flou.
Toutefois, il reste possible d’exercer cette activité dans un cadre légal en suivant certaines règles. Ces dernières, biens qu’assez logiques, restreignent considérablement les possibilités en web scraping au grand dam des hackers non éthiques. Et vous, serez-vous du côté lumineux de la force ?