Web scraping

O que é Web scraping?

Web scraping, que geralmente poderia ser traduzido de uma forma muito literal como “raspagem de páginas da Web”, consiste em navegar automaticamente em um site e, ao mesmo tempo, extrair os dados encontrados para analisar e manipular os dados extraídos com base em determinados parâmetros.

O aplicativo ou software criado para fazer este processo é chamado de bot, spider ou crawler. Muitos sites tentam se proteger contra esses aplicativos para proteger seus dados. Um exemplo disso é o Captcha, que está em muitos formulários de assinatura e não só impede que nosso banco de dados de assinantes colete contas de email falsas, mas também impede que os rastreadores acessem determinadas áreas de um site.

1 1 Objetivos do web scraping?
2 2) O web scraping é legal?
3 3) Como podemos evitar a coleta de dados em websites?

1 Objetivos do web scraping?

As informações obtidas são muito valiosas, portanto, a “raspagem de dados” é realizada com objetivos muito diferentes, pode-se dizer que eles são infinitos, assim como as possibilidades de mineração de dados, mas alguns dos mais comuns são:

Criar bases de dados de emails, talvez seja um dos usos mais óbvios e, com esses endereços, criar bancos de dados para fazer spam.
Conhecer os concorrentes, já que, ao rastrear o site deles, você obtém dados que, à primeira vista, não são percebidos e que são muito valiosos para nos posicionarmos no mercado.
Controle e comparação de ofertas online, para estar sempre ciente das ofertas que estão sendo oferecidas em outros sites.
Gerar alertas, apenas para monitorar aspectos de um site que desejamos controlar. Localizar links que não funcionam, a fim de resolver o problema e melhorar a estratégia de posicionamento de SEO.
Monitorar os preços dos concorrentes e localizar tendências. Com isso, você pode determinar as estratégias de preços dos sites e reagir a elas, se necessário.
Estar ciente de quaisquer alterações em um site, para que possamos estar cientes de quaisquer alterações feitas em nosso site ou em outros.
Rastreamento da reputação online e da presença online, para saber a posição que os mecanismos de pesquisa dão às entradas de um determinado blog.
Coleta de catálogos de produtos: para um um ecommerce, é muito interessante conhecer a composição das listas de produtos da concorrência para melhorar os seus próprios.
Coletar dados de vários sites e compará-los, para ter dados sobre tendências e técnicas usadas por esses sites em vários aspectos de interesse.

2) O web scraping é legal?

Essa é uma pergunta muito comum e a resposta é que, às vezes, é legal e, às vezes, não.

Em outras palavras, os usuários que usarem este tipo de estratégia devem sempre levar em conta os direitos de propriedade intelectual do site para que não seja considerado ilegal, e é legal desde que os dados obtidos estejam disponíveis gratuitamente para terceiros no próprio site.

Muitas vezes, os proprietários de sites oferecem o uso de uma API para que este tipo de técnica não seja necessária e os dados possam ser obtidos facilmente. Ninguém se incomoda, ou quase ninguém, com o fato de o rastreador do Google acessar seu website para indexar o conteúdo do mesmo e, assim, ocupar as melhores posições nas SERPs. Para fazer scraping legalmente, esses aspectos devem ser levados em conta:

Os dados coletados não podem ser usados para fins ilegais ou prejudiciais.
Sempre respeite os direitos de propriedade intelectual e legal do site.
Se for necessário o registro do usuário ou um contrato de uso, esses dados não poderão ser coletados por scraping.
Os proprietários de sites têm o direito de colocar impedimentos técnicos para evitar scraping e estes bloqueios não devem ser ignorados.

3) Como podemos evitar a coleta de dados em websites?

Mesmo que você declare explicitamente em seu site que não permite web scraping, sempre haverá quem queira fazer isso, portanto, você precisa implementar uma série de ações para se proteger, tais como:

Adaptar o arquivo .htaccess de acordo com os padrões dos IPs que tentam fazer web scraping, ou seja, bloqueá-los.
Controlar as solicitações de entrada; a identificação de IPs e sua filtragem no firewall é uma medida muito válida para tentar evitar o “scraping” de seu site.
Detectar hotlinking e evitar, não permitir o uso dos recursos do servidor em locais não autorizados.
Limitar as solicitações por endereço IP, para que um invasor não possa estabelecer várias conexões a partir do mesmo IP.
Modificar a estrutura HTML, já que os rastreadores se concentram na análise do HTML, alterá-lo com frequência dificulta que um invasor obtenha os dados do seu site com facilidade.
Oferecer uma API, para que você possa monitorar e restringir os dados que podem ser extraídos do seu site. Isso não impede a utilização de técnicas ilegais de scraping, mas reduz muito o problema e melhora o processo de controle dos seus dados.
Usar honeypots ou links para conteúdo falso, ou seja, conteúdo específico que não é visível para um visitante normal do site. Assim, é possível detectar atividades de scraping indesejadas, sendo necessário desativar esses links no arquivo robots.txt para os bots dos mecanismos de busca.
Usar tokens de falsificação de solicitações (CSRF), evitando assim que bots automatizados façam solicitações abusivas.