{"id":60020,"date":"2022-10-26T15:08:10","date_gmt":"2022-10-26T15:08:10","guid":{"rendered":"https:\/\/mailrelay.com\/glossary\/web-scraping\/"},"modified":"2023-09-08T06:35:48","modified_gmt":"2023-09-08T06:35:48","slug":"web-scraping","status":"publish","type":"glossary","link":"https:\/\/mailrelay.com\/es\/glosario\/web-scraping\/","title":{"rendered":"Web scraping"},"content":{"rendered":"<p>El <em>web scraping<\/em>, que suele ser traducido por \u201craspado de p\u00e1ginas web\u00bb, consiste en la navegaci\u00f3n autom\u00e1tica por una web y al mismo tiempo realizar la extracci\u00f3n de los datos encontrado para, posteriormente, analizar y manipular los datos extra\u00eddos en base a ciertos par\u00e1metros.<\/p>\n<p>A la aplicaci\u00f3n o software creado para scrapear se le denomina bot, spider o crawler. Muchas webs tratar de protegerse de esas aplicaciones para salvaguardar sus datos. Un ejemplo de ello lo tenemos en los Captcha, que est\u00e1n en muchos formularios de suscripci\u00f3n y que evitan, no solo que nuestra base de datos de suscriptores recojan cuentas de correos falsas, tambi\u00e9n evitan el acceso de los crawlers a ciertas zonas de un sitio web.<\/p>\n<h2>1. \u00bfObjetivos del web scraping?<\/h2>\n<p>La informaci\u00f3n que se obtiene es muy valiosa, por ello el \u201craspado de datos\u00bb se lleva a cabo con muy diversos objetivos, se podr\u00eda decir que son infinitos como lo son las posibilidades del data mining, no obstante algunos de los m\u00e1s comunes son:<\/p>\n<ul>\n<li>Crear bases de datos de correos, es quiz\u00e1 uno de los usos m\u00e1s evidentes y luego con esas direcciones de crean bases de datos con los que realizar spam.<\/li>\n<li>Conocer a los competidores, dado que al scrapear su sitio web obtienes datos que a simple vista no se perciben y que son muy valiosos para posicionarnos en el mercado.<\/li>\n<li>Control y comparaci\u00f3n de ofertas online, tener constancia en todo momento de las ofertas que est\u00e1n ofreciendo en otras webs.<\/li>\n<li>Generar alertas, justo para monitorizas aspectos que nos interese controlar de una web. Localizar links que no funcionan, para con ello solucionarlos y mejorar la estrategia de posicionamiento SEO.<\/li>\n<li>Monitorear los precios de la competencia y localizar tendencias, con ello se puede determinar las estrategias de precios de las webs y reaccionar ante ello si fuera necesario.<\/li>\n<li>Tener presente cualquier cambio de una web, con lo que tenemos conocimiento de cualquier cambio que se haga en nuestra web o en otras.<\/li>\n<li>Rastrear la reputaci\u00f3n online y presencia online, gracias a lo que se puede conocer la posici\u00f3n que les otorgar los buscadores web a las entradas de un cierto blog.<\/li>\n<li>Recolecci\u00f3n de fichas de productos, para los <a href=\"https:\/\/mailrelay.com\/es\/glosario\/ecommerce\/\" target=\"_blank\" rel=\"noopener\">ecommerce<\/a> es muy interesante conocer la composici\u00f3n de las fichas de productos de la competencia, para mejorar las propias.<\/li>\n<li>Recopilar datos de varias webs y compararlos, para tener datos sobre las tendencias y t\u00e9cnicas usadas por dichas webs en diversos aspectos de inter\u00e9s.<\/li>\n<\/ul>\n<h2>2. \u00bfEl web scraping es legal?<\/h2>\n<p>Esta pregunta es muy com\u00fan y la respuesta es, que en ocasiones es legal y en ocasiones no lo es.<\/p>\n<p>Es decir, los scrapers siempre deben tener en cuenta los derechos de propiedad intelectual de las web para que ello no pueda ser considerado ilegal, y es legal siempre que los datos obtenidos est\u00e9n disponibles libremente para terceros en la propia web.<\/p>\n<p>Muchas veces los propietarios de las web ofrecen el uso de una API para que no sea necesario realizar scraping, y conseguir los datos de forma sencilla. A nadie le molesta, o casi nadie, que el crawler de Google acceda a su web para indexar los contenidos de la misma y, con ello, tomar las mejores posiciones en las SERPs. Para hacer scraping de forma legal se han de tener en cuenta estos aspectos:<\/p>\n<ul>\n<li>No se puede hacer uso de los datos recabados con fines ilegales o da\u00f1inos.<\/li>\n<li>Siempre se ha cumplir con los derechos de propiedad intelectual y legal del sitio web.<\/li>\n<li>Si se requiere el registro de los usuarios o un contrato de utilizaci\u00f3n, dichos datos no podr\u00e1n ser recopilados mediante scraping.<\/li>\n<li>Los propietarios de las webs tienen derecho a colocar impedimentos t\u00e9cnicos para evitar el web scraping y no deben ser ignorados.<\/li>\n<\/ul>\n<h2>3. \u00bfComo protegemos del web scraping?<\/h2>\n<p>Aunque en tu sitio web manifiestes de forma explicita que no permites web scraping, nunca faltaran quienes deseen hacerlo, por lo que es necesario que implementes una serie de acciones para protegerte, como pueden ser:<\/p>\n<ul>\n<li>Adecuando el archivo .htaccess de acuerdo a los patrones de las IPs que intentan hacer web scraping, eso es: bloque\u00e1ndolas.<\/li>\n<li>Controlar las solicitudes entrantes, para ello la identificaci\u00f3n de IPs y su filtrado en el firewall es una medida muy validad para tratar de evitar el \u201craspado\u00bb de tu sitio web.<\/li>\n<li>Detectando el hotlinking y evitando, no permitiendo el uso recursos de nuestro servidor en lugares no autorizados.<\/li>\n<li>Limita las solicitudes por direcci\u00f3n IP, con lo que un atacante no puede establecer m\u00faltiples conexiones desde la misma IP.<\/li>\n<li>Modificando la estructura del HTML, dado que los rastreadores se centran en analizar el HTML, cambiarlo con cierta frecuencia dificulta al atacante hacer scraping de forma sencilla en tu web.<\/li>\n<li>Ofrece un API, para as\u00ed poder monitorizar y restringir los datos que se pueden extraer de tu sitio. Ello no evita el web scraping malintencionado pero reduce, en gran medida, el n\u00famero de veces que nuestra web se enfrente al raspado de datos.<\/li>\n<li>Usa honeypots o enlaces a contenido falso, es decir contenido especifico que no es visible para un visitante normal de nuestro sitio web. Detectando asi a los crawlers indeseados, siendo necesario deshabilitar esos enlaces en el archivo <a href=\"https:\/\/mailrelay.com\/es\/glosario\/robots-txt\/\" target=\"_blank\" rel=\"noopener\">robots.txt<\/a> para los bots de los buscadores.<\/li>\n<li>Uso de tokens de falsificaci\u00f3n de solicitud (CSRF), as\u00ed evitar\u00e1s que las automatizaciones de los bots realicen solicitudes abusivas.<\/li>\n<\/ul>\n","protected":false},"template":"","class_list":["post-60020","glossary","type-glossary","status-publish","hentry"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v27.0 - https:\/\/yoast.com\/product\/yoast-seo-wordpress\/ -->\n<title>Web scraping - Mailrelay<\/title>\n<meta name=\"description\" content=\"\u2b50 El web scraping, que suele ser traducido por \u201craspado de p\u00e1ginas web&quot;\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/mailrelay.com\/es\/glosario\/web-scraping\/\" \/>\n<meta property=\"og:locale\" content=\"es_ES\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Web scraping - Mailrelay\" \/>\n<meta property=\"og:description\" content=\"\u2b50 El web scraping, que suele ser traducido por \u201craspado de p\u00e1ginas web&quot;\" \/>\n<meta property=\"og:url\" content=\"https:\/\/mailrelay.com\/es\/glosario\/web-scraping\/\" \/>\n<meta property=\"og:site_name\" content=\"Mailrelay\" \/>\n<meta property=\"article:publisher\" content=\"https:\/\/www.facebook.com\/Mailrelay\/\" \/>\n<meta property=\"article:modified_time\" content=\"2023-09-08T06:35:48+00:00\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:site\" content=\"@mailrelay\" \/>\n<meta name=\"twitter:label1\" content=\"Tiempo de lectura\" \/>\n\t<meta name=\"twitter:data1\" content=\"4 minutos\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/mailrelay.com\/es\/glosario\/web-scraping\/\",\"url\":\"https:\/\/mailrelay.com\/es\/glosario\/web-scraping\/\",\"name\":\"Web scraping - Mailrelay\",\"isPartOf\":{\"@id\":\"https:\/\/mailrelay.com\/es\/#website\"},\"datePublished\":\"2022-10-26T15:08:10+00:00\",\"dateModified\":\"2023-09-08T06:35:48+00:00\",\"description\":\"\u2b50 El web scraping, que suele ser traducido por \u201craspado de p\u00e1ginas web\\\"\",\"breadcrumb\":{\"@id\":\"https:\/\/mailrelay.com\/es\/glosario\/web-scraping\/#breadcrumb\"},\"inLanguage\":\"es\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/mailrelay.com\/es\/glosario\/web-scraping\/\"]}]},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/mailrelay.com\/es\/glosario\/web-scraping\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/mailrelay.com\/es\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Web scraping\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/mailrelay.com\/es\/#website\",\"url\":\"https:\/\/mailrelay.com\/es\/\",\"name\":\"Mailrelay\",\"description\":\"Mailrelay.com - Email Marketing Software\",\"publisher\":{\"@id\":\"https:\/\/mailrelay.com\/es\/#organization\"},\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/mailrelay.com\/es\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"es\"},{\"@type\":\"Organization\",\"@id\":\"https:\/\/mailrelay.com\/es\/#organization\",\"name\":\"Mailrelay\",\"url\":\"https:\/\/mailrelay.com\/es\/\",\"logo\":{\"@type\":\"ImageObject\",\"inLanguage\":\"es\",\"@id\":\"https:\/\/mailrelay.com\/es\/#\/schema\/logo\/image\/\",\"url\":\"https:\/\/mailrelay.com\/wp-content\/uploads\/2019\/05\/mailrelay-logo.jpg\",\"contentUrl\":\"https:\/\/mailrelay.com\/wp-content\/uploads\/2019\/05\/mailrelay-logo.jpg\",\"width\":613,\"height\":291,\"caption\":\"Mailrelay\"},\"image\":{\"@id\":\"https:\/\/mailrelay.com\/es\/#\/schema\/logo\/image\/\"},\"sameAs\":[\"https:\/\/www.facebook.com\/Mailrelay\/\",\"https:\/\/x.com\/mailrelay\",\"https:\/\/www.youtube.com\/mailrelay-email-marketing\"]}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Web scraping - Mailrelay","description":"\u2b50 El web scraping, que suele ser traducido por \u201craspado de p\u00e1ginas web\"","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/mailrelay.com\/es\/glosario\/web-scraping\/","og_locale":"es_ES","og_type":"article","og_title":"Web scraping - Mailrelay","og_description":"\u2b50 El web scraping, que suele ser traducido por \u201craspado de p\u00e1ginas web\"","og_url":"https:\/\/mailrelay.com\/es\/glosario\/web-scraping\/","og_site_name":"Mailrelay","article_publisher":"https:\/\/www.facebook.com\/Mailrelay\/","article_modified_time":"2023-09-08T06:35:48+00:00","twitter_card":"summary_large_image","twitter_site":"@mailrelay","twitter_misc":{"Tiempo de lectura":"4 minutos"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/mailrelay.com\/es\/glosario\/web-scraping\/","url":"https:\/\/mailrelay.com\/es\/glosario\/web-scraping\/","name":"Web scraping - Mailrelay","isPartOf":{"@id":"https:\/\/mailrelay.com\/es\/#website"},"datePublished":"2022-10-26T15:08:10+00:00","dateModified":"2023-09-08T06:35:48+00:00","description":"\u2b50 El web scraping, que suele ser traducido por \u201craspado de p\u00e1ginas web\"","breadcrumb":{"@id":"https:\/\/mailrelay.com\/es\/glosario\/web-scraping\/#breadcrumb"},"inLanguage":"es","potentialAction":[{"@type":"ReadAction","target":["https:\/\/mailrelay.com\/es\/glosario\/web-scraping\/"]}]},{"@type":"BreadcrumbList","@id":"https:\/\/mailrelay.com\/es\/glosario\/web-scraping\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/mailrelay.com\/es\/"},{"@type":"ListItem","position":2,"name":"Web scraping"}]},{"@type":"WebSite","@id":"https:\/\/mailrelay.com\/es\/#website","url":"https:\/\/mailrelay.com\/es\/","name":"Mailrelay","description":"Mailrelay.com - Email Marketing Software","publisher":{"@id":"https:\/\/mailrelay.com\/es\/#organization"},"potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/mailrelay.com\/es\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"es"},{"@type":"Organization","@id":"https:\/\/mailrelay.com\/es\/#organization","name":"Mailrelay","url":"https:\/\/mailrelay.com\/es\/","logo":{"@type":"ImageObject","inLanguage":"es","@id":"https:\/\/mailrelay.com\/es\/#\/schema\/logo\/image\/","url":"https:\/\/mailrelay.com\/wp-content\/uploads\/2019\/05\/mailrelay-logo.jpg","contentUrl":"https:\/\/mailrelay.com\/wp-content\/uploads\/2019\/05\/mailrelay-logo.jpg","width":613,"height":291,"caption":"Mailrelay"},"image":{"@id":"https:\/\/mailrelay.com\/es\/#\/schema\/logo\/image\/"},"sameAs":["https:\/\/www.facebook.com\/Mailrelay\/","https:\/\/x.com\/mailrelay","https:\/\/www.youtube.com\/mailrelay-email-marketing"]}]}},"uagb_featured_image_src":[],"uagb_author_info":{"display_name":"Mailrelay","author_link":"https:\/\/mailrelay.com\/es\/blog\/author\/"},"uagb_comment_info":0,"uagb_excerpt":"El web scraping, que suele ser traducido por \u201craspado de p\u00e1ginas web\u00bb, consiste en la navegaci\u00f3n autom\u00e1tica por una web y al mismo tiempo realizar la extracci\u00f3n de los datos encontrado para, posteriormente, analizar y manipular los datos extra\u00eddos en base a ciertos par\u00e1metros. A la aplicaci\u00f3n o software creado para scrapear se le denomina&hellip;","_links":{"self":[{"href":"https:\/\/mailrelay.com\/es\/wp-json\/wp\/v2\/glossary\/60020","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/mailrelay.com\/es\/wp-json\/wp\/v2\/glossary"}],"about":[{"href":"https:\/\/mailrelay.com\/es\/wp-json\/wp\/v2\/types\/glossary"}],"version-history":[{"count":4,"href":"https:\/\/mailrelay.com\/es\/wp-json\/wp\/v2\/glossary\/60020\/revisions"}],"predecessor-version":[{"id":74454,"href":"https:\/\/mailrelay.com\/es\/wp-json\/wp\/v2\/glossary\/60020\/revisions\/74454"}],"wp:attachment":[{"href":"https:\/\/mailrelay.com\/es\/wp-json\/wp\/v2\/media?parent=60020"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}