Vuoi che i PDF che hai sul tuo sito web non siano indicizzati? In questa guida ti mostreremo i passi da seguire per far sì che i PDF non siano mostrati nei risultati di ricerca (su Google e altri motori).
Ti daremo anche degli spunti utili su come proteggere i PDF su un sito WordPress, cosa particolarmente utile da fare quando si tratta di file che devono essere riservati e accessibili solo a determinate persone.
Iniziamo dal vedere come capire se i nostri PDF sono nell’indice dei motori di ricerca.
Table of Contents
Come verificare se i PDF sono indicizzati
Se hai dei file PDF sul tuo sito web e non vuoi che vengano mostrati nei risultati dei motori di ricerca, devi far sì che avvenga la deindicizzazione.
Prima di vedere come fare, ti mostro come fare a capire se i PDF sono presenti nell’indice di Google.
Ci sono due strade che puoi seguire:
- fare una ricerca avanzata;
- usare la Search Console.
Individuare i PDF indicizzati con una ricerca avanzata
La ricerca avanzata di Google ci permette di fare ricerche molto specifiche e trovare le risorse che sono state aggiunte all’indice.
In particolare in questo caso utilizzeremo due operatori:
filetype
: ci permette di restringere la ricerca a un tipo di file da noi specificato.site
: effettua la ricerca in un dominio specifico.
Per trovare i pdf del nostro sito, quindi ci basterà fare una ricerca in questo modo:
filetype:pdf site:tuosito.com
Ti basterà digitare il dominio in cui vuoi fare la ricerca.
Nell’esempio qui sotto puoi vedere che molti dei pdf presenti su HubSpot sono indicizzati.

Trovare i pdf indicizzati tramite Search Console
Se hai collegato il tuo sito alla Search Console di Google, puoi vedere se i file PDF del tuo sito risultano indicizzati direttamente da qui.
Per farlo, accedi alla Search Console e apri il report “Pagine” sotto Indicizzazione. Quindi clicca su “Visualizza i dati sulle pagine indicizzate”.

Qui dovrai attivare il filtro “URL” e inserire come valore Contiene “.pdf“, come ti mostro in questo esempio:

In questo modo avrai la lista dei file PDF che risultano essere indicizzati.
Ora che abbiamo visto come verificare se ci sono PDF indicizzati sul nostro sito, vediamo come fare a far sì che vengano rimossi dall’indice. Ovviamente puoi seguire la stessa procedura anche se stai caricando ora i file sul tuo sito e vuoi evitare a priori che vengano indicizzati.
Come deindicizzare i PDF
Il metodo corretto per impedire l’indicizzazione di una risorsa è utilizzare il tag noindex.
Quando si tratta di una pagina web o di un articolo si può inserire la direttiva noindex come meta tag robots. Abbiamo visto esattamente come fare nella guida all’uso del tag noindex.
In questo caso, invece, se vogliamo deindicizzare un PDF non possiamo utilizzare lo stesso metodo perché un PDF non è un file HTML.
Perché non usare disallow
In alcune guide viene suggerito di utilizzare la direttiva disallow
nel file robots.txt per evitare che i file PDF caricati sul sito vengano indicizzati.
Questo metodo non funziona per il semplice fatto che la direttiva disallow
non va a bloccare l’indicizzazione, ma impedisce solamente la scansione dei contenuti.
Ipotizziamo di usare la direttiva disallow, si tratta di aggiungere questo codice al file robots:
User-agent: *
Disallow: /*.pdf$
In questo modo stiamo chiedendo ai crawler di non scansionare tutti gli URL che terminano per “.pdf
“.
Il problema, però, è che se ci sono altri link che rimandano a quei PDF, i motori di ricerca procederanno all’indicizzazione e i file potranno comparire nelle ricerche.
Adesso ti mostrerò come fare a richiedere che i PDF non siano indicizzati. Prima, però, devi fare attenzione a una cosa importante.
Per far sì che il X-Robots-Tag noindex venga letto dai crawler, la risorsa non deve essere bloccata tramite file robots. In parole semplici: se usi la direttiva disallow per bloccare la scansione, il noindex non avrà efficacia perché non verrà letto. Il metodo corretto, come indicato anche nella documentazione di Google, è usare solo il tag noindex.
Aggiungere il noindex ai PDF usando l’intestazione HTTP
Come dicevamo per i file PDF non si può usare il meta tag robots noindex, cioè questo:
<meta name="robots" content="noindex">
Per i file non HTML, esiste un metodo differente: andare ad aggiungere l’X-Robots-Tag noindex nelle intestazioni HTTP.
Per farlo bisogna andare a modificare i file di configurazione del web server. Vediamo come fare con Apache.
Se il tuo piano hosting utilizza Apache (o anche LiteSpeed) ti basta andare a modificare il file .htaccess aggiungendo questo codice:
<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex"
</Files>
Se hai un piano come l’hosting WordPress con SupportHost puoi andare a modificare il file .htaccess direttamente dal file manager di cPanel.

Se non lo visualizzi, assicurati di aver attivato l’opzione per visualizzare i file nascosti.

Verificare l’aggiunta del noindex
Per verificare se l’X-Robots-Tag è stato aggiunto correttamente puoi usare due sistemi:
- DevTools di Chrome;
- il comando cURL da terminale (Linux, macOS e Windows).
Per fare il controllo direttamente da browser apri lo strumento per sviluppatori di Chrome e vai a verificare nella scheda Network, nella sezione Headers cosa compare accanto a X-Robots-Tag, come in questo esempio.

Se, invece, vuoi usare una richiesta cURL ti basta usare il comando in questo modo:
curl -I https://tuosito.com/nomepdf.pdf
Usa il comando cURL con l’opzione -I
, seguito dall’URL del pdf che vuoi verificare.
La risposta sarà simile a questa, quello che devi andare a guardare è cosa c’è scritto accanto a x-robots-tag, come in questo esempio.

In questo caso ho utilizzato il prompt dei comandi su Windows, ma puoi fare lo stesso anche da terminale su Linux o macOS.
Come richiedere la rimozione da Search Console
Se stiamo intervenendo dopo che i file PDF sono già stati inseriti nell’indice, quando aggiungiamo il tag noindex la deindicizzazione non sarà istantanea.
Se vogliamo velocizzare i tempi, possiamo fare una richiesta di rimozione direttamente dalla Search Console.
Per farlo, collegati alla Search Console e seleziona il dominio corretto dalla lista delle proprietà.
Quindi clicca su “Rimozioni” dalla lista Indicizzazione e poi sul pulsante “Nuova richiesta”.

Dobbiamo quindi inserire l’URL del PDF per cui vogliamo richiedere la rimozione, selezionare l’opzione “Rimuovi solo questo URL” e cliccare sul pulsante Avanti.

Nella schermata successiva, verifichiamo che l’URL sia esatto e possiamo procedere cliccando su “Invia richiesta“.

Dopo che la richiesta sarà inviata, potremo seguire l’avanzamento sempre andando su Rimozioni. Appena inviata la richiesta risulterà nello stato “Elaborazione della richiesta”.

A questo punto occorre fare una precisazione: perché non rimuovere semplicemente l’URL da Search Console senza inserire il noindex?
La risposta è semplice: le richieste di rimozioni sono valide solo per 6 mesi, dopodiché Google può indicizzare nuovamente le pagine (o in questo caso i file). Se, invece, inseriamo il noindex con i passaggi che ti ho mostrato prima, ci assicuriamo che quel contenuto non venga inserito nuovamente nell’indice.
Suggerimenti per proteggere i pdf su un sito WordPress
Abbiamo visto come fare a evitare che i file PDF vengano indicizzati e come richiedere la rimozione dall’indice di Google.
Ma come si fa per proteggere i PDF rendendoli accessibili solo in certe condizioni? In questo caso, se hai un sito WordPress, puoi usare un plugin per la gestione dei download.
Un esempio è dato da Download manager che ti permette di:
- gestire i file in una sezione separata del backend e incorporare un pulsante per il download dove vuoi nel tuo sito;
- limitare l’accesso al pdf in base al ruolo utente;
- bloccare l’accesso con password (impostando anche limiti sul numero di utilizzi delle password, nella versione Pro).

Per scoprire altri plugin simili, ti invito a leggere la nostra lista dei migliori plugin di download per WordPress.
Se, invece, vuoi rendere inaccessibile anche le pagine che portano al download dei PDF, puoi andare a impostare queste pagine in noindex
.
Con WordPress è molto semplice, ci sono diversi metodi come abbiamo visto nella guida al tag noindex, ma il sistema che trovo più facile è quello di usare direttamente Rank Math.
Nella sezione Avanzate che trovi direttamente nell’editor in fase di modifica della pagina, puoi impostare il meta tag robots noindex con una semplice spunta sull’opzione.

In base alle necessità che hai, puoi anche utilizzare un plugin per creare sul tuo sito WordPress una vera e propria area riservata ai membri.
Conclusioni
Nascondere i PDF dai motori di ricerca è utile in diversi casi: magari si tratta di file che utilizzi internamente e vuoi renderli accessibili solo ai tuoi collaboratori che hanno accesso al sito, oppure si tratta di guide o ebook riservati a una community.
In questa guida ti ho mostrato come comunicare ai motori di ricerca di non includere nell’indice i file PDF, abbiamo anche visto come richiedere la rimozione (strategia molto utile se i tuoi file sono già visibili nella SERP) e poi parlato delle varie strategie che ci aiutano a proteggere l’accesso ai file.
E tu, conoscevi il metodo per applicare il noindex ai file non HTML? Facci sapere con un commento se hai altri dubbi.
Lascia un commento