{"id":74950,"date":"2023-09-19T19:53:30","date_gmt":"2023-09-19T19:53:30","guid":{"rendered":"https:\/\/mailrelay.com\/glosario\/web-scraping\/"},"modified":"2023-09-19T19:53:30","modified_gmt":"2023-09-19T19:53:30","slug":"web-scraping","status":"publish","type":"glossary","link":"https:\/\/mailrelay.com\/pt\/glossario\/web-scraping\/","title":{"rendered":"Web scraping"},"content":{"rendered":"<p><em>Web scraping<\/em>, que geralmente poderia ser traduzido de uma forma muito literal como &#8220;raspagem de p\u00e1ginas da Web&#8221;, consiste em navegar automaticamente em um site e, ao mesmo tempo, extrair os dados encontrados para analisar e manipular os dados extra\u00eddos com base em determinados par\u00e2metros.<\/p>\n<p>O aplicativo ou software criado para fazer este processo \u00e9 chamado de bot, spider ou crawler. Muitos sites tentam se proteger contra esses aplicativos para proteger seus dados. Um exemplo disso \u00e9 o Captcha, que est\u00e1 em muitos formul\u00e1rios de assinatura e n\u00e3o s\u00f3 impede que nosso banco de dados de assinantes colete contas de email falsas, mas tamb\u00e9m impede que os rastreadores acessem determinadas \u00e1reas de um site.<\/p>\n<h2>1 Objetivos do web scraping?<\/h2>\n<p>As informa\u00e7\u00f5es obtidas s\u00e3o muito valiosas, portanto, a &#8220;raspagem de dados&#8221; \u00e9 realizada com objetivos muito diferentes, pode-se dizer que eles s\u00e3o infinitos, assim como as possibilidades de minera\u00e7\u00e3o de dados, mas alguns dos mais comuns s\u00e3o:<\/p>\n<ul>\n<li>Criar bases de dados de emails, talvez seja um dos usos mais \u00f3bvios e, com esses endere\u00e7os, criar bancos de dados para fazer spam.<\/li>\n<li>Conhecer os concorrentes, j\u00e1 que, ao rastrear o site deles, voc\u00ea obt\u00e9m dados que, \u00e0 primeira vista, n\u00e3o s\u00e3o percebidos e que s\u00e3o muito valiosos para nos posicionarmos no mercado.<\/li>\n<li>Controle e compara\u00e7\u00e3o de ofertas online, para estar sempre ciente das ofertas que est\u00e3o sendo oferecidas em outros sites.<\/li>\n<li>Gerar alertas, apenas para monitorar aspectos de um site que desejamos controlar. Localizar links que n\u00e3o funcionam, a fim de resolver o problema e melhorar a estrat\u00e9gia de posicionamento de SEO.<\/li>\n<li>Monitorar os pre\u00e7os dos concorrentes e localizar tend\u00eancias. Com isso, voc\u00ea pode determinar as estrat\u00e9gias de pre\u00e7os dos sites e reagir a elas, se necess\u00e1rio.<\/li>\n<li>Estar ciente de quaisquer altera\u00e7\u00f5es em um site, para que possamos estar cientes de quaisquer altera\u00e7\u00f5es feitas em nosso site ou em outros.<\/li>\n<li>Rastreamento da reputa\u00e7\u00e3o online e da presen\u00e7a online, para saber a posi\u00e7\u00e3o que os mecanismos de pesquisa d\u00e3o \u00e0s entradas de um determinado blog.<\/li>\n<li><a href=\"https:\/\/mailrelay.com\/es\/glosario\/ecommerce\/\" target=\"_blank\" rel=\"noopener\">Coleta de cat\u00e1logos de produtos<\/a>: para um um ecommerce, \u00e9 muito interessante conhecer a composi\u00e7\u00e3o das listas de produtos da concorr\u00eancia para melhorar os seus pr\u00f3prios.<\/li>\n<li>Coletar dados de v\u00e1rios sites e compar\u00e1-los, para ter dados sobre tend\u00eancias e t\u00e9cnicas usadas por esses sites em v\u00e1rios aspectos de interesse.<\/li>\n<\/ul>\n<h2>2) O web scraping \u00e9 legal?<\/h2>\n<p>Essa \u00e9 uma pergunta muito comum e a resposta \u00e9 que, \u00e0s vezes, \u00e9 legal e, \u00e0s vezes, n\u00e3o.<\/p>\n<p>Em outras palavras, os usu\u00e1rios que usarem este tipo de estrat\u00e9gia devem sempre levar em conta os direitos de propriedade intelectual do site para que n\u00e3o seja considerado ilegal, e \u00e9 legal desde que os dados obtidos estejam dispon\u00edveis gratuitamente para terceiros no pr\u00f3prio site.<\/p>\n<p>Muitas vezes, os propriet\u00e1rios de sites oferecem o uso de uma API para que este tipo de t\u00e9cnica n\u00e3o seja necess\u00e1ria e os dados possam ser obtidos facilmente. Ningu\u00e9m se incomoda, ou quase ningu\u00e9m, com o fato de o rastreador do Google acessar seu website para indexar o conte\u00fado do mesmo e, assim, ocupar as melhores posi\u00e7\u00f5es nas SERPs. Para fazer scraping legalmente, esses aspectos devem ser levados em conta:<\/p>\n<ul>\n<li>Os dados coletados n\u00e3o podem ser usados para fins ilegais ou prejudiciais.<\/li>\n<li>Sempre respeite os direitos de propriedade intelectual e legal do site.<\/li>\n<li>Se for necess\u00e1rio o registro do usu\u00e1rio ou um contrato de uso, esses dados n\u00e3o poder\u00e3o ser coletados por scraping.<\/li>\n<li>Os propriet\u00e1rios de sites t\u00eam o direito de colocar impedimentos t\u00e9cnicos para evitar scraping e estes bloqueios n\u00e3o devem ser ignorados.<\/li>\n<\/ul>\n<h2>3) Como podemos evitar a coleta de dados em websites?<\/h2>\n<p>Mesmo que voc\u00ea declare explicitamente em seu site que n\u00e3o permite web scraping, sempre haver\u00e1 quem queira fazer isso, portanto, voc\u00ea precisa implementar uma s\u00e9rie de a\u00e7\u00f5es para se proteger, tais como:<\/p>\n<ul>\n<li>Adaptar o arquivo .htaccess de acordo com os padr\u00f5es dos IPs que tentam fazer web scraping, ou seja, bloque\u00e1-los.<\/li>\n<li>Controlar as solicita\u00e7\u00f5es de entrada; a identifica\u00e7\u00e3o de IPs e sua filtragem no firewall \u00e9 uma medida muito v\u00e1lida para tentar evitar o &#8220;scraping&#8221; de seu site.<\/li>\n<li>Detectar hotlinking e evitar, n\u00e3o permitir o uso dos recursos do servidor em locais n\u00e3o autorizados.<\/li>\n<li>Limitar as solicita\u00e7\u00f5es por endere\u00e7o IP, para que um invasor n\u00e3o possa estabelecer v\u00e1rias conex\u00f5es a partir do mesmo IP.<\/li>\n<li>Modificar a estrutura HTML, j\u00e1 que os rastreadores se concentram na an\u00e1lise do HTML, alter\u00e1-lo com frequ\u00eancia dificulta que um invasor obtenha os dados do seu site com facilidade.<\/li>\n<li>Oferecer uma API, para que voc\u00ea possa monitorar e restringir os dados que podem ser extra\u00eddos do seu site. Isso n\u00e3o impede a utiliza\u00e7\u00e3o de t\u00e9cnicas ilegais de scraping, mas reduz muito o problema e melhora o processo de controle dos seus dados.<\/li>\n<li>Usar honeypots ou links para conte\u00fado falso, ou seja, conte\u00fado espec\u00edfico que n\u00e3o \u00e9 vis\u00edvel para um visitante normal do site. Assim, \u00e9 poss\u00edvel detectar atividades de scraping indesejadas, sendo necess\u00e1rio desativar esses links no arquivo <a href=\"https:\/\/mailrelay.com\/es\/glosario\/robots-txt\/\" target=\"_blank\" rel=\"noopener\">robots.txt<\/a> para os bots dos mecanismos de busca.<\/li>\n<li>Usar tokens de falsifica\u00e7\u00e3o de solicita\u00e7\u00f5es (CSRF), evitando assim que bots automatizados fa\u00e7am solicita\u00e7\u00f5es abusivas.<\/li>\n<\/ul>\n","protected":false},"template":"","class_list":["post-74950","glossary","type-glossary","status-publish","hentry"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.0 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Web scraping - Mailrelay<\/title>\n<meta name=\"description\" content=\"Web scraping, que geralmente poderia ser traduzido de uma forma muito literal como &quot;raspagem de p\u00e1ginas da Web&quot;\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/mailrelay.com\/pt\/glossario\/web-scraping\/\" \/>\n<meta property=\"og:locale\" content=\"pt_BR\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Web scraping - Mailrelay\" \/>\n<meta property=\"og:description\" content=\"Web scraping, que geralmente poderia ser traduzido de uma forma muito literal como &quot;raspagem de p\u00e1ginas da Web&quot;\" \/>\n<meta property=\"og:url\" content=\"https:\/\/mailrelay.com\/pt\/glossario\/web-scraping\/\" \/>\n<meta property=\"og:site_name\" content=\"Mailrelay\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/Mailrelay\/\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:site\" content=\"@mailrelay\" \/>\n<meta name=\"twitter:label1\" content=\"Est. tempo de leitura\" \/>\n\t<meta name=\"twitter:data1\" content=\"5 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/mailrelay.com\/pt\/glossario\/web-scraping\/\",\"url\":\"https:\/\/mailrelay.com\/pt\/glossario\/web-scraping\/\",\"name\":\"Web scraping - Mailrelay\",\"isPartOf\":{\"@id\":\"https:\/\/mailrelay.com\/pt\/#website\"},\"datePublished\":\"2023-09-19T19:53:30+00:00\",\"description\":\"Web scraping, que geralmente poderia ser traduzido de uma forma muito literal como \\\"raspagem de p\u00e1ginas da Web\\\"\",\"breadcrumb\":{\"@id\":\"https:\/\/mailrelay.com\/pt\/glossario\/web-scraping\/#breadcrumb\"},\"inLanguage\":\"pt-BR\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/mailrelay.com\/pt\/glossario\/web-scraping\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/mailrelay.com\/pt\/glossario\/web-scraping\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/mailrelay.com\/pt\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Web scraping\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/mailrelay.com\/pt\/#website\",\"url\":\"https:\/\/mailrelay.com\/pt\/\",\"name\":\"Mailrelay\",\"description\":\"Mailrelay.com - Email Marketing Software\",\"publisher\":{\"@id\":\"https:\/\/mailrelay.com\/pt\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/mailrelay.com\/pt\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"pt-BR\"},{\"@type\":\"Organization\",\"@id\":\"https:\/\/mailrelay.com\/pt\/#organization\",\"name\":\"Mailrelay\",\"url\":\"https:\/\/mailrelay.com\/pt\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"pt-BR\",\"@id\":\"https:\/\/mailrelay.com\/pt\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/mailrelay.com\/wp-content\/uploads\/2019\/05\/mailrelay-logo.jpg\",\"contentUrl\":\"https:\/\/mailrelay.com\/wp-content\/uploads\/2019\/05\/mailrelay-logo.jpg\",\"width\":613,\"height\":291,\"caption\":\"Mailrelay\"},\"image\":{\"@id\":\"https:\/\/mailrelay.com\/pt\/#\/schema\/logo\/image\/\"},\"sameAs\":[\"https:\/\/www.facebook.com\/Mailrelay\/\",\"https:\/\/x.com\/mailrelay\",\"https:\/\/www.youtube.com\/mailrelay-email-marketing\"]}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Web scraping - Mailrelay","description":"Web scraping, que geralmente poderia ser traduzido de uma forma muito literal como \"raspagem de p\u00e1ginas da Web\"","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/mailrelay.com\/pt\/glossario\/web-scraping\/","og_locale":"pt_BR","og_type":"article","og_title":"Web scraping - Mailrelay","og_description":"Web scraping, que geralmente poderia ser traduzido de uma forma muito literal como \"raspagem de p\u00e1ginas da Web\"","og_url":"https:\/\/mailrelay.com\/pt\/glossario\/web-scraping\/","og_site_name":"Mailrelay","article_publisher":"https:\/\/www.facebook.com\/Mailrelay\/","twitter_card":"summary_large_image","twitter_site":"@mailrelay","twitter_misc":{"Est. tempo de leitura":"5 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/mailrelay.com\/pt\/glossario\/web-scraping\/","url":"https:\/\/mailrelay.com\/pt\/glossario\/web-scraping\/","name":"Web scraping - Mailrelay","isPartOf":{"@id":"https:\/\/mailrelay.com\/pt\/#website"},"datePublished":"2023-09-19T19:53:30+00:00","description":"Web scraping, que geralmente poderia ser traduzido de uma forma muito literal como \"raspagem de p\u00e1ginas da Web\"","breadcrumb":{"@id":"https:\/\/mailrelay.com\/pt\/glossario\/web-scraping\/#breadcrumb"},"inLanguage":"pt-BR","potentialAction":[{"@type":"ReadAction","target":["https:\/\/mailrelay.com\/pt\/glossario\/web-scraping\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/mailrelay.com\/pt\/glossario\/web-scraping\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/mailrelay.com\/pt\/"},{"@type":"ListItem","position":2,"name":"Web scraping"}]},{"@type":"WebSite","@id":"https:\/\/mailrelay.com\/pt\/#website","url":"https:\/\/mailrelay.com\/pt\/","name":"Mailrelay","description":"Mailrelay.com - Email Marketing Software","publisher":{"@id":"https:\/\/mailrelay.com\/pt\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/mailrelay.com\/pt\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"pt-BR"},{"@type":"Organization","@id":"https:\/\/mailrelay.com\/pt\/#organization","name":"Mailrelay","url":"https:\/\/mailrelay.com\/pt\/","logo":{"@type":"ImageObject","inLanguage":"pt-BR","@id":"https:\/\/mailrelay.com\/pt\/#\/schema\/logo\/image\/","url":"https:\/\/mailrelay.com\/wp-content\/uploads\/2019\/05\/mailrelay-logo.jpg","contentUrl":"https:\/\/mailrelay.com\/wp-content\/uploads\/2019\/05\/mailrelay-logo.jpg","width":613,"height":291,"caption":"Mailrelay"},"image":{"@id":"https:\/\/mailrelay.com\/pt\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/Mailrelay\/","https:\/\/x.com\/mailrelay","https:\/\/www.youtube.com\/mailrelay-email-marketing"]}]}},"uagb_featured_image_src":[],"uagb_author_info":{"display_name":"Mailrelay","author_link":"https:\/\/mailrelay.com\/pt\/blog\/author\/"},"uagb_comment_info":0,"uagb_excerpt":"Web scraping, que geralmente poderia ser traduzido de uma forma muito literal como &#8220;raspagem de p\u00e1ginas da Web&#8221;, consiste em navegar automaticamente em um site e, ao mesmo tempo, extrair os dados encontrados para analisar e manipular os dados extra\u00eddos com base em determinados par\u00e2metros. O aplicativo ou software criado para fazer este processo \u00e9&hellip;","_links":{"self":[{"href":"https:\/\/mailrelay.com\/pt\/wp-json\/wp\/v2\/glossary\/74950","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/mailrelay.com\/pt\/wp-json\/wp\/v2\/glossary"}],"about":[{"href":"https:\/\/mailrelay.com\/pt\/wp-json\/wp\/v2\/types\/glossary"}],"version-history":[{"count":0,"href":"https:\/\/mailrelay.com\/pt\/wp-json\/wp\/v2\/glossary\/74950\/revisions"}],"wp:attachment":[{"href":"https:\/\/mailrelay.com\/pt\/wp-json\/wp\/v2\/media?parent=74950"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}