{"id":45122,"date":"2023-07-17T08:00:00","date_gmt":"2023-07-17T07:00:00","guid":{"rendered":"https:\/\/supporthost.com\/it\/?p=45122"},"modified":"2025-09-18T11:29:19","modified_gmt":"2025-09-18T09:29:19","slug":"web-scraping","status":"publish","type":"post","link":"https:\/\/supporthost.com\/it\/web-scraping\/","title":{"rendered":"Cos&#8217;\u00e8 il web scraping e come funziona"},"content":{"rendered":"\n<p>Vuoi sapere cos&#8217;\u00e8 il web scraping, come funziona e a quale scopo pu\u00f2 essere usato? <\/p>\n\n\n\n<p>In questo articolo vedremo una panoramica di questo metodo che ci permette di ottenere grandi moli di dati in automatico, parleremo anche di risvolti legali ed etici ed esamineremo con quali metodi \u00e8 possibile proteggere il proprio sito web.<\/p>\n\n\n\n<p>Cominciamo proprio dal capire in cosa consiste lo scraping dei dati e come avviene.<\/p>\n\n\n\n<div class=\"wp-block-rank-math-toc-block\" id=\"rank-math-toc\"><h2>Indice<\/h2><nav><ul><li><a href=\"#cose-il-web-scraping\">Cos&#8217;\u00e8 il web scraping<\/a><\/li><li><a href=\"#come-funziona-il-web-scraping\">Come funziona il web scraping<\/a><ul><li><a href=\"#strumenti-per-il-web-scraping\">Strumenti per il web scraping<\/a><ul><li><a href=\"#creare-il-proprio-web-scraper\">Creare il proprio web scraper<\/a><\/li><\/ul><\/li><li><a href=\"#tipologie-di-scraping\">Tipologie di scraping<\/a><\/li><li><a href=\"#qual-e-la-differenza-tra-crawling-e-scraping\">Qual \u00e8 la differenza tra crawling e scraping?<\/a><\/li><\/ul><\/li><li><a href=\"#per-cosa-viene-usato-il-web-scraping\">Per cosa viene usato il web scraping?<\/a><\/li><li><a href=\"#il-web-scraping-e-legale\">Il web scraping \u00e8 legale?<\/a><\/li><li><a href=\"#come-proteggere-il-proprio-sito-dallo-scraping\">Come proteggere il proprio sito dallo scraping<\/a><ul><li><a href=\"#imporre-un-limite-al-numero-di-richieste\">Imporre un limite al numero di richieste<\/a><\/li><li><a href=\"#utilizzare-codici-captcha\">Utilizzare codici CAPTCHA<\/a><\/li><li><a href=\"#identificare-i-visitatori\">Identificare i visitatori<\/a><\/li><li><a href=\"#aggiornare-i-tag-html\">Aggiornare i tag HTML<\/a><\/li><li><a href=\"#nascondere-i-dati\">Nascondere i dati<\/a><\/li><li><a href=\"#stabilire-delle-regole-nei-termini-e-condizioni-e-creare-un-file-robots-txt\">Stabilire delle regole nei termini e condizioni e creare un file robots.txt<\/a><\/li><\/ul><\/li><li><a href=\"#conclusioni\">Conclusioni<\/a><\/li><\/ul><\/nav><\/div>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"538\" src=\"https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2023\/06\/cose-il-web-scraping-e-come-funziona-1024x538.png\" alt=\"Cose Il Web Scraping E Come Funziona\" class=\"wp-image-45726\" srcset=\"https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2023\/06\/cose-il-web-scraping-e-come-funziona-1024x538.png 1024w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2023\/06\/cose-il-web-scraping-e-come-funziona-300x158.png 300w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2023\/06\/cose-il-web-scraping-e-come-funziona-768x403.png 768w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2023\/06\/cose-il-web-scraping-e-come-funziona-120x63.png 120w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2023\/06\/cose-il-web-scraping-e-come-funziona.png 1200w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"cose-il-web-scraping\">Cos&#8217;\u00e8 il web scraping<\/h2>\n\n\n\n<p>Il web scraping anche chiamato scraping di dati, content scraping o semplicemente scraping \u00e8 una tecnica che permette di prelevare informazioni dalle pagine web. <\/p>\n\n\n\n<p>Lo scopo di questa tecnica \u00e8 infatti quello di identificare in automatico dati rilevanti all&#8217;interno delle pagine web, recuperarli e poi conservarli come dati strutturati. <\/p>\n\n\n\n<p>L&#8217;obiettivo \u00e8 avere i dati prelevati in un formato che permette di accedere facilmente alle informazioni e che permette di riutilizzarle, per esempio un file Excel. <\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1022\" height=\"794\" src=\"https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2023\/06\/recupero-e-analisi-dei-dati.png\" alt=\"Recupero E Analisi Dei Dati\" class=\"wp-image-45125\" style=\"width:511px;height:397px\" srcset=\"https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2023\/06\/recupero-e-analisi-dei-dati.png 1022w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2023\/06\/recupero-e-analisi-dei-dati-300x233.png 300w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2023\/06\/recupero-e-analisi-dei-dati-768x597.png 768w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2023\/06\/recupero-e-analisi-dei-dati-81x63.png 81w\" sizes=\"auto, (max-width: 1022px) 100vw, 1022px\" \/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"come-funziona-il-web-scraping\">Come funziona il web scraping<\/h2>\n\n\n\n<p>Il processo di web scraping varia in base allo strumento utilizzato, ma in generale si pu\u00f2 suddividere in tre fasi:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li>Lo strumento di web scraping viene usato per inviare una <strong>richiesta HTTP<\/strong> al server. Attraverso questa richiesta il tool sta chiedendo di accedere al sito allo stesso modo in cui il browser invia una richiesta quando apriamo una pagina web per visitarla.<\/li>\n\n\n\n<li>Dopo che il server risponde e consente allo strumento di accedere al sito, lo strumento pu\u00f2 analizzare, per la precisione fare il <strong>parsing<\/strong>, delle informazioni nella pagina. In particolare lo strumento pu\u00f2 accedere alla versione HTML o XML della pagina, visualizzarne la struttura e poter ricavare degli elementi specifici.<\/li>\n\n\n\n<li>La terza fase consiste nel prelevare questi dati per poi salvarli in diversi formati per esempio in un foglio di calcolo, in base alle impostazioni del programma che si sta utilizzando.<\/li>\n<\/ol>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"strumenti-per-il-web-scraping\">Strumenti per il web scraping<\/h3>\n\n\n\n<p>Il processo che abbiamo appena descritto \u00e8 volutamente semplificato, ma ci serve a capire cosa c&#8217;\u00e8 alla base del web scraping.<\/p>\n\n\n\n<p>Quando parliamo di strumenti e di tecniche di scraping possiamo trovare diversi esempi.<\/p>\n\n\n\n<p>Gli <strong>strumenti<\/strong> possono essere classificati in base al tipo:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>si pu\u00f2 usare la programmazione per creare il proprio web scraper,<\/li>\n\n\n\n<li>si possono usare strumenti di web scraping gi\u00e0 pronti da scaricare ed eseguire,<\/li>\n\n\n\n<li>oltre ai programmi, \u00e8 possibile anche trovare estensioni per i browser.<\/li>\n<\/ul>\n\n\n\n<p>Ecco degli esempi di strumenti di scraping gratuiti e premium.<\/p>\n\n\n\n<p><strong>Parsehub<\/strong>, ha un piano gratuito e piani con sottoscrizione mensile a partire da 189$ al mese.<\/p>\n\n\n\n<p><strong>Octoparse<\/strong>, disponibile con una prova gratuita che consente di eseguire un massimo di 10 operazioni, poi disponibile a pagamento con piani a partire da 52$ al mese (attualmente in offerta, costo regolare di 75$ al mese per il piano Standard).<\/p>\n\n\n\n<p><strong>Import.io<\/strong>, disponibile con un piano in prova gratuita per 14 giorni e poi con piani a pagamento a partire da 199$ al mese.<\/p>\n\n\n\n<p>Tra le funzioni degli strumenti di web scraping ricordiamo:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>diverse modalit\u00e0 di scraping, sia in locale che in cloud;<\/li>\n\n\n\n<li>inserimento di liste di URL da analizzare;<\/li>\n\n\n\n<li>formati multipli di esportazione dei dati (tra cui CSV, XLS, JSON, TXT ed esportazione diretta in Fogli Google);<\/li>\n\n\n\n<li>possibilit\u00e0 di programmare l&#8217;esecuzione del programma per fare lo scraping a intervalli stabiliti;<\/li>\n\n\n\n<li>eseguire lo scraping anche di pagine che richiedono il login o la risoluzione di un codice captcha;<\/li>\n\n\n\n<li>cambiamento regolare degli IP per evitare di essere bloccati.<\/li>\n<\/ul>\n\n\n\n<h4 class=\"wp-block-heading\" id=\"creare-il-proprio-web-scraper\">Creare il proprio web scraper<\/h4>\n\n\n\n<p>Chi sa come programmare pu\u00f2 sfruttare una delle tante librerie di scraping per creare il proprio strumento personalizzato per la raccolta dei dati.<\/p>\n\n\n\n<p>Uno dei linguaggi di programmazione pi\u00f9 utilizzati per il web scraping \u00e8 <strong>Python<\/strong>. Esistono infatti gi\u00e0 numerose librerie che possono essere utili per creare il proprio script custom, tra cui Scrapy e Beatifulsoup.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"815\" src=\"https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2021\/03\/programmare-1024x815.png\" alt=\"Programmare\" class=\"wp-image-17754\" style=\"width:512px;height:408px\" srcset=\"https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2021\/03\/programmare-1024x815.png 1024w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2021\/03\/programmare-300x239.png 300w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2021\/03\/programmare-768x611.png 768w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2021\/03\/programmare-79x63.png 79w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2021\/03\/programmare.png 1086w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p>Se si vuole creare uno strumento di web scraping con Python la prima cosa da fare \u00e8 delineare l&#8217;idea:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>scegliere i siti da cui prelevare le informazioni;<\/li>\n\n\n\n<li>visualizzare la sorgente delle pagine che ci interessano per individuare gli elementi che vengono usati per le informazioni di interesse (si pu\u00f2 anche usare lo strumento per sviluppatori del browser);<\/li>\n\n\n\n<li>abbiamo quindi le basi per creare il codice per il nostro programma;<\/li>\n\n\n\n<li>eseguire lo script per inviare la richiesta alla pagina;<\/li>\n\n\n\n<li>salvare i dati nel formato strutturato che ci \u00e8 pi\u00f9 comodo.<\/li>\n<\/ul>\n\n\n\n<p>Come vedi alla base della creazione del proprio web scraper c&#8217;\u00e8 l&#8217;analisi del sito che ci interessa. Questo \u00e8 dovuto al fatto che ogni sito web \u00e8 differente, per cui per recuperare le informazioni che ti interessano dovrai utilizzare metodi diversi.<\/p>\n\n\n\n<p>Oltre a questo devi considerare che la struttura dei siti pu\u00f2 cambiare nel tempo, per cui anche dopo aver creato uno strumento che funziona, potrebbe essere necessario fare delle modifiche per adattarlo ai cambiamenti dei siti.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"tipologie-di-scraping\">Tipologie di scraping<\/h3>\n\n\n\n<p>Ci sono diverse tecniche di scraping.<\/p>\n\n\n\n<p><strong>Copia e incolla<\/strong>: la forma basilare di scraping dei dati \u00e8 proprio la copia manuale dei contenuti di un sito. Si tratta per\u00f2 della tecnica meno efficiente perch\u00e9 non pu\u00f2 essere automatizzata.<\/p>\n\n\n\n<p><strong>Analisi delle pagine HTML<\/strong>: il programma analizza la versione HTML della pagina per recuperare le informazioni contenute nei tag HTML.<\/p>\n\n\n\n<p><strong>Analisi dei documenti XML<\/strong>: si utilizzano altri tipi di parser come i DOM parser per recuperare le informazioni contenute nei documenti XML.<\/p>\n\n\n\n<p><strong>Espressioni regolari<\/strong>: si possono usare delle espressioni regolari per recuperare informazioni che corrispondono a un determinato pattern (pattern matching).<\/p>\n\n\n\n<p><strong>Recupero dei dati via API<\/strong>: quando accessibili le API possono essere utilizzate per prelevare le informazioni ricercate.<\/p>\n\n\n\n<p>Le diverse tecniche possono anche essere combinate tra loro, ad esempio dopo aver usato una tecnica automatizzata e non essere riusciti a recuperare tutte le informazioni che volevamo, \u00e8 possibile usare un sistema manuale per completare le informazioni. Lo stesso potrebbe succedere nel caso in cui alcuni dati siano inesatti e quindi da correggere.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"qual-e-la-differenza-tra-crawling-e-scraping\">Qual \u00e8 la differenza tra crawling e scraping?<\/h3>\n\n\n\n<p>Un crawler o web crawler \u00e8 un bot che visita i siti web per indicizzare i contenuti e seguire i collegamenti presenti all&#8217;interno di ogni pagina. I motori di ricerca come Google utilizzato i crawler per <strong>aggiungere al loro indice<\/strong> i contenuti delle pagine web. Leggi il nostro approfondimento sul <a href=\"https:\/\/supporthost.com\/it\/seo-significato\/\" data-type=\"post\" data-id=\"21310\">significato della SEO<\/a> per maggiori dettagli sull&#8217;indicizzazione e sul posizionamento dei contenuti sui motori di ricerca. <\/p>\n\n\n\n<p>Uno scraper, invece, \u00e8 uno strumento creato allo scopo di ricercare informazioni specifiche all&#8217;interno delle pagine, estrarle e poi raccogliere questi dati in maniera strutturata.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"per-cosa-viene-usato-il-web-scraping\">Per cosa viene usato il web scraping?<\/h2>\n\n\n\n<p>Gli utilizzi di questa tecnica sono molteplici, vediamo perci\u00f2 alcuni esempi di web scraping.<\/p>\n\n\n\n<p><strong>Confronto dei prezzi<\/strong>: attraverso lo scraping dei dati si possono ottenere informazioni sui prezzi, sia per seguire le fluttuazioni del mercato che per confrontare i propri prezzi a quelli della concorrenza. Anche gli aggregatori di prezzi sono creati con lo scraping.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"673\" src=\"https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2021\/08\/analisi-dei-dati-1024x673.png\" alt=\"Analisi Dei Dati\" class=\"wp-image-19628\" style=\"width:512px;height:337px\" srcset=\"https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2021\/08\/analisi-dei-dati-1024x673.png 1024w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2021\/08\/analisi-dei-dati-300x197.png 300w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2021\/08\/analisi-dei-dati-768x505.png 768w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2021\/08\/analisi-dei-dati-96x63.png 96w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2021\/08\/analisi-dei-dati.png 1064w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p><strong>Aggregare i contenuti<\/strong>: dagli aggregatori di prezzi, fino a quelli di recensioni, di eventi, di notizie o di annunci (per esempio quelli immobiliari), il web scraping \u00e8 usato per raccogliere in breve tempo una grande mole di dati.<\/p>\n\n\n\n<p><strong>Raccolta di dati a scopo di ricerca o analisi<\/strong>: spesso si cerca di prelevare molti dati in automatico per aggregarli all&#8217;interno di ricerche o per analisi di mercato.<\/p>\n\n\n\n<p><strong>Machine learning<\/strong>: le informazioni raccolte possono essere utilizzate come set di dati per addestrare le macchine.<\/p>\n\n\n\n<p><strong>Raccolta di contatti<\/strong>: tramite lo scraping dei dati si possono ottenere contatti come numeri di telefono e email. Tuttavia bisogna sottolineare che in base al GDPR queste informazioni non dovrebbero essere utilizzate senza aver ottenuto il consenso.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"724\" src=\"https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2021\/12\/dati-personali-1024x724.png\" alt=\"Dati Personali\" class=\"wp-image-22106\" style=\"width:512px;height:362px\" srcset=\"https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2021\/12\/dati-personali-1024x724.png 1024w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2021\/12\/dati-personali-300x212.png 300w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2021\/12\/dati-personali-768x543.png 768w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2021\/12\/dati-personali-89x63.png 89w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2021\/12\/dati-personali.png 1078w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"il-web-scraping-e-legale\">Il web scraping \u00e8 legale?<\/h2>\n\n\n\n<p>Tecnicamente estrarre dati dai siti web con strumenti di web scraping non \u00e8 illegale. Tuttavia bisogna comunque fare attenzione ad alcuni aspetti che rientrano pi\u00f9 nella sfera dell&#8217;<strong>utilizzo etico<\/strong> che dell&#8217;infrazione della legge.<\/p>\n\n\n\n<p>In primis i <strong>termini di servizio<\/strong>, se le condizioni del sito vietano espressamente l&#8217;estrazione e il riutilizzo dei dati, allora non sei autorizzato allo scraping.<\/p>\n\n\n\n<p>Bisogna fare attenzione anche alle <strong>pagine protette da login<\/strong>, anche in questo caso c&#8217;\u00e8 differenza rispetto alle informazioni accessibili pubblicamente.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large is-resized\"><img decoding=\"async\" src=\"https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2021\/09\/gdpr-1024x861.png\" alt=\"Gdpr\" class=\"wp-image-20348\" style=\"width:512px;height:431px\" \/><\/figure>\n\n\n\n<p>Per non parlare poi anche del GDPR, se le informazioni contengono <strong>dati personali<\/strong>, non puoi riprodurle o utilizzarle senza il consenso specifico. In passato il Garante della Privacy si \u00e8 espresso con un <a href=\"https:\/\/www.garanteprivacy.it\/web\/guest\/home\/docweb\/-\/docweb-display\/docweb\/6053915\" rel=\"noopener\">provvedimento<\/a> proprio in un caso di scraping di dati.<\/p>\n\n\n\n<p>Riguardo al content scraping per la riproduzione di parte dei contenuti (sia testi che immagini) bisogna anche fare riferimento ai termini del <strong>copyright<\/strong>: queste informazioni possono essere riprodotte su altri siti? Quali sono i termini specifici?<\/p>\n\n\n\n<p>Molto dipende anche dall&#8217;uso che farai delle informazioni prelevate, per esempio non dovresti usarle a scopo commerciale se non hai avuto un&#8217;autorizzazione.<\/p>\n\n\n\n<p>Per fare web scraping in maniera responsabile, quindi, occorre utilizzare il buon senso.<\/p>\n\n\n\n<p>Bisogna rispettare i termini di servizio, il copyright e il GDPR.<\/p>\n\n\n\n<p>\u00c8 bene evitare di inondare i siti di richieste: tieni presente che le richieste inviate per fare scraping utilizzano le <strong>risorse del server<\/strong>, quindi un numero eccessivo di richieste pu\u00f2 anche mandare in down un sito. <\/p>\n\n\n\n<p>Oltre a limitare la frequenza delle richieste, l&#8217;ideale sarebbe anche programmare le richieste in modo da non eseguirle in concomitanza al picco di traffico che pu\u00f2 avere il sito, per esempio limitandole a orari notturni.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"come-proteggere-il-proprio-sito-dallo-scraping\">Come proteggere il proprio sito dallo scraping<\/h2>\n\n\n\n<p>Come abbiamo detto, il web data scraping di fatto non \u00e8 illegale, tuttavia il modo in cui viene eseguito e il modo in cui vengono utilizzate le informazioni prelevate non pu\u00f2 essere previsto. Per evitare, quindi, che malintenzionati vogliano utilizzare i dati del tuo sito per scopi non autorizzati o per danneggiarti, ci sono diversi sistemi per cercare di arginare il fenomeno.<\/p>\n\n\n\n<p>Vediamo alcuni spunti.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"imporre-un-limite-al-numero-di-richieste\">Imporre un limite al numero di richieste<\/h3>\n\n\n\n<p>Questo \u00e8 forse uno dei metodi pi\u00f9 importanti da mettere in pratica per ridurre il carico di lavoro sul server. <\/p>\n\n\n\n<p>Come dicevamo, un numero eccessivo di richieste pu\u00f2 dare problemi al sito perch\u00e9 pu\u00f2 andare a saturare le risorse del server, un po&#8217; come accade negli <a href=\"https:\/\/supporthost.com\/it\/ddos\/\" data-type=\"post\" data-id=\"30811\">attacchi DDoS<\/a> quando l&#8217;attaccante invia molte richieste per rendere il sito irraggiungibile. <\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"694\" src=\"https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2022\/03\/hacker-1024x694.png\" alt=\"Hacker\" class=\"wp-image-23354\" style=\"width:512px;height:347px\" srcset=\"https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2022\/03\/hacker-1024x694.png 1024w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2022\/03\/hacker-300x203.png 300w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2022\/03\/hacker-768x520.png 768w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2022\/03\/hacker-93x63.png 93w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2022\/03\/hacker.png 1200w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p>Uno dei sistemi consiste nel limitare il numero di richieste in base all&#8217;IP, tuttavia tiene presente che questo limite pu\u00f2 essere aggirato utilizzando indirizzi IP diversi.<\/p>\n\n\n\n<p><strong>Suggerimento pratico<\/strong>: se hai un piano con SupportHost come un <a href=\"https:\/\/supporthost.com\/it\/hosting-wordpress\/\" data-type=\"page\" data-id=\"22570\">hosting WordPress<\/a>, puoi <a href=\"https:\/\/supporthost.com\/it\/tutorial\/bloccare-indirizzo-ip\/\" data-type=\"bwl_kb\" data-id=\"20888\">bloccare gli indirizzi IP<\/a> (sia singoli che intervalli) da cPanel.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"utilizzare-codici-captcha\">Utilizzare codici CAPTCHA<\/h3>\n\n\n\n<p>La presenza di un <a href=\"https:\/\/supporthost.com\/it\/codice-captcha\/\" data-type=\"post\" data-id=\"17097\">codice captcha<\/a> che non pu\u00f2 essere superato da un bot pu\u00f2 impedire l&#8217;accesso ai sistemi di scraping, bisogna comunque sapere che ci sono strumenti in grado di superare questo tipo di protezione.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"160\" height=\"164\" src=\"https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2020\/12\/google-recaptcha-v3.png\" alt=\"Google Recaptcha V3\" class=\"wp-image-15918\" srcset=\"https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2020\/12\/google-recaptcha-v3.png 160w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2020\/12\/google-recaptcha-v3-61x63.png 61w\" sizes=\"auto, (max-width: 160px) 100vw, 160px\" \/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"identificare-i-visitatori\">Identificare i visitatori <\/h3>\n\n\n\n<p>Ci sono metodi per capire se un visitatore \u00e8 reale o \u00e8 un bot, per esempio gli <strong>honeypot<\/strong>, delle trappole che possono essere utilizzate per identificare un tentativo di scraping, memorizzare l&#8217;IP da cui proviene e poi inserire l&#8217;IP in una <a href=\"https:\/\/supporthost.com\/it\/blacklist-check\/\" data-type=\"post\" data-id=\"29750\">blacklist<\/a> o bloccarlo.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"aggiornare-i-tag-html\">Aggiornare i tag HTML<\/h3>\n\n\n\n<p>Molti strumenti di scraping si basano su una formattazione regolare. Andando a introdurre dei cambiamenti nella struttura della pagina si pu\u00f2 rendere pi\u00f9 difficile l&#8217;estrazione dei dati.<\/p>\n\n\n\n<figure class=\"wp-block-image aligncenter size-full is-resized\"><img loading=\"lazy\" decoding=\"async\" width=\"960\" height=\"615\" src=\"https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2022\/10\/design-pagina-web.png\" alt=\"Design Pagina Web\" class=\"wp-image-32509\" style=\"width:480px;height:308px\" srcset=\"https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2022\/10\/design-pagina-web.png 960w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2022\/10\/design-pagina-web-300x192.png 300w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2022\/10\/design-pagina-web-768x492.png 768w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2022\/10\/design-pagina-web-98x63.png 98w\" sizes=\"auto, (max-width: 960px) 100vw, 960px\" \/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"nascondere-i-dati\">Nascondere i dati<\/h3>\n\n\n\n<p>Ci sono sistemi che consentono di incorporare i contenuti testuali in elementi multimediali. Questa tecnica rende difficile ai programmi di scraping di reperire le informazioni, ma \u00e8 comunque poco utilizzata.<\/p>\n\n\n\n<p>Invece, per quanto riguarda le <strong>immagini<\/strong>, puoi adottare diverse tecniche per rendere pi\u00f9 difficile la vita a chi cerca di prelevarle senza il tuo consenso. Se usi WordPress, ti potrebbe interessare la nostra guida su come <a href=\"https:\/\/supporthost.com\/it\/proteggere-immagini-wordpress\/\">prevenire il furto di immagini da un sito WordPress<\/a>.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\" id=\"stabilire-delle-regole-nei-termini-e-condizioni-e-creare-un-file-robots-txt\">Stabilire delle regole nei termini e condizioni e creare un file robots.txt<\/h3>\n\n\n\n<p>Con un <a href=\"https:\/\/supporthost.com\/it\/robots-txt\/\" data-type=\"post\" data-id=\"29366\">file robots.txt<\/a> si pu\u00f2 indicare quali link non devono essere accessibili, per esempio questo file viene seguito dai motori di ricerca e rispettato per escludere dall&#8217;indicizzazione alcune pagine. <\/p>\n\n\n\n<p>Resta sempre inteso che uno strumento di web scraping con scopi malevoli potrebbe non rispettare le indicazioni di questo file o i divieti che hai stabilito nelle condizioni di utilizzo del tuo sito web.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"955\" height=\"620\" src=\"https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2022\/09\/aggiornare-file-robots-txt-tester-google.png\" alt=\"Aggiornare File Robots Txt Tester Google\" class=\"wp-image-29589\" srcset=\"https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2022\/09\/aggiornare-file-robots-txt-tester-google.png 955w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2022\/09\/aggiornare-file-robots-txt-tester-google-300x195.png 300w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2022\/09\/aggiornare-file-robots-txt-tester-google-768x499.png 768w, https:\/\/supporthost.com\/it\/wp-content\/uploads\/sites\/2\/2022\/09\/aggiornare-file-robots-txt-tester-google-97x63.png 97w\" sizes=\"auto, (max-width: 955px) 100vw, 955px\" \/><\/figure>\n\n\n\n<p>Tieni comunque presente che gli strumenti di data scraping possono adottare numerose strategie per aggirare la maggior parte di queste limitazioni. Per esempio inviare richieste che passino come legittime grazie all&#8217;uso di indirizzi IP sempre diversi e ID di dispositivi generati in maniera casuale, oppure riuscendo a oltrepassare i codici Captcha.<\/p>\n\n\n\n<p>Non c&#8217;\u00e8 quindi un sistema per bloccare completamente i tentativi di scraping. Servizi di gestione dei bot come quello offerto da Cloudflare (bot management) possono ridurre gli accessi e le attivit\u00e0 indesiderate sul sito riconoscendo i bot malevoli da quelli &#8220;buoni&#8221; e dal traffico reale.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"conclusioni\">Conclusioni<\/h2>\n\n\n\n<p>Adesso hai una panoramica completa sull&#8217;argomento web scraping, conosci le <strong>tecniche <\/strong>principali che possono essere usate per estrapolare i dati dai siti internet e alcuni degli <strong>strumenti <\/strong>di scraping pi\u00f9 conosciuti. <\/p>\n\n\n\n<p>Ovviamente non abbiamo tralasciato nemmeno l&#8217;altra faccia della medaglia: visto che lo scraping non viene sempre usato con buone intenzioni, ci sono diversi sistemi che ci vengono in aiuto per <strong>proteggere i nostri siti web<\/strong>. <\/p>\n\n\n\n<p>In questo caso oltre ad eventuali strumenti esterni, \u00e8 consigliabile avere un piano di hosting che ti permetta di limitare l&#8217;accesso a determinati indirizzi IP e monitorare l&#8217;utilizzo delle risorse. Se vuoi avere accesso a questi e altri strumenti per la gestione del tuo sito, attiva un piano <a href=\"https:\/\/supporthost.com\/it\/hosting-gratis\/\" data-type=\"page\" data-id=\"56333\">hosting gratuito<\/a> su SupportHost, potrai provare il servizio senza impegno per capire se fa al caso tuo.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Vuoi sapere cos&#8217;\u00e8 il web scraping, come funziona e a quale scopo pu\u00f2 essere usato? In questo articolo vedremo una panoramica di questo metodo che ci permette di ottenere grandi moli di dati in automatico, parleremo anche di risvolti legali ed etici ed esamineremo con quali metodi \u00e8 possibile proteggere il proprio sito web. Cominciamo [&hellip;]<\/p>\n","protected":false},"author":3,"featured_media":63584,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"inline_featured_image":false,"footnotes":""},"categories":[29],"tags":[],"class_list":["post-45122","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-sicurezza"],"acf":[],"_links":{"self":[{"href":"https:\/\/supporthost.com\/it\/wp-json\/wp\/v2\/posts\/45122","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/supporthost.com\/it\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/supporthost.com\/it\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/supporthost.com\/it\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/supporthost.com\/it\/wp-json\/wp\/v2\/comments?post=45122"}],"version-history":[{"count":4,"href":"https:\/\/supporthost.com\/it\/wp-json\/wp\/v2\/posts\/45122\/revisions"}],"predecessor-version":[{"id":131893,"href":"https:\/\/supporthost.com\/it\/wp-json\/wp\/v2\/posts\/45122\/revisions\/131893"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/supporthost.com\/it\/wp-json\/wp\/v2\/media\/63584"}],"wp:attachment":[{"href":"https:\/\/supporthost.com\/it\/wp-json\/wp\/v2\/media?parent=45122"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/supporthost.com\/it\/wp-json\/wp\/v2\/categories?post=45122"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/supporthost.com\/it\/wp-json\/wp\/v2\/tags?post=45122"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}