Ce se intelege prin continut duplicat si cum afecteaza SEO

Nu este un secret faptul ca continutul duplicat este prezentat pe multe site-uri, dar adevarata intrebare de astazi este: continutul duplicat are un impact asupra SEO ?

In acest ghid vom vedea in detaliu tot ceea ce este legat de aceasta problema, atat de mult dezbatuta in lumea SEO, in ultimii 10 ani, la fel si cateva sfaturi.

Ce se intelege prin continut duplicat ?

Ar fi inutil sa continuam discutia fara a da mai intai o definitie foarte precisa a subiectului acestui ghid. Pentru a nu lasa loc de interpretarea libera, ne putem referi la cuvintele oficiale ale Google:

Termenul „continut duplicat” se refera de obicei la blocuri considerabile de continut din sau intre domenii care sunt identice sau foarte similare.

Aici sursa .

Dar sa trecem direct la subiect si, mai presus de toate, sa ne dedicam problemelor mai tehnice.

In practica, exista o situatie de continut duplicat atunci cand aceleasi paragrafe sunt prezente pe doua pagini cu adrese URL diferite. Si aici as face imediat o mica precizare: aceasta definitie este valabila daca ambele pagini sunt prezente in indexul Google

Penalizare pentru continut duplicat

Problema continutului duplicat a creat intotdeauna o multime de confuzie in randul profesionistilor din industrie si chiar Google s-a pronuntat de mai multe ori pentru a oferi clarificari puternice in aceasta privinta.

Deja intr-un videoclip indepartat la sfarsitul anului 2013, Matt Cutts, fostul head of Google web spam, a intervenit afirmand ca “nu trebuie sa va faceti griji. Google nu trateaza continutul duplicat ca spam”.

Desi nu exista o penalizare ad-hoc reala pentru continutul duplicat, asa cum afirma Google, este bine sa evitati aceste situatii: daca copia are intentia de a manipula clasamentele, atunci site-ul web ar putea avea consecinte grave pana la a fii dezindexat.

In cazurile rare in care constatam ca continutul duplicat poate fi afisat cu intentia de a ne manipula clasamentele si de a ne induce in eroare utilizatorii, facem modificarile necesare pentru indexarea si clasarea site-urilor afectate. Ca urmare, clasarea site-urilor se poate deteriora sau site-urile pot fi eliminate complet din indexul Google si nu vor mai aparea in rezultatele cautarii.

Sa consideram ca, potrivit unui studiu realizat de RavenTools, aproximativ 29% din paginile web au continut duplicat si daca ar exista cu adevarat o penalizare specifica, impactul ar fi devastator pentru milioane si milioane de site-uri

De ce uraste Google continutul duplicat ?

In primul rand, utilizatorii dintr-un SERP (pagina cu rezultatele motorului de cautare) doresc sa vada diversitatea si nu acelasi continut reutilizat pe domenii diferite, iar Google trebuie sa-si multumeasca publicului, asa cum bine stiti.

In al doilea rand, cand Googlebot gaseste doua continuturi identice in doua adrese URL diferite, cum decide care este sursa originala ? Google se afla la o rascruce de drumuri si pentru a alege ce cale sa urmeze, algoritmul ia in considerare data indexarii si alti factori, inclusiv autoritatea site-ului.

In al treilea rand, accesarea cu crawlere a zeci de pagini identice este o risipa de crawl budget pentru bot si vine in detrimentul indexarii paginilor legitime cu continut proaspat, ceea ce poate duce la pierderea traficului.

Care sunt cauzele continutului duplicat ?

Sa vedem imediat toate cele mai frecvente cauze.

# 1 Plagiat

Dincolo de implicatiile legale ale plagiatului sau ale copierii de continut de pe site-urile altor persoane, Google ofera un instrument gratuit, numit DMCA Dashboard , care il informeaza despre aceste situatii pentru a-i permite sa elimine imediat infractorii din indexul sau, fara a astepta intarzierile unui proces. civil.

Daca in multe cazuri este o situatie deliberata, se intampla si mai des ca webmasterul sa nu observe situatia, dar sa sufere in tacere consecintele. Aceasta poate fii utilizarea necorespunzatoare a imaginilor gasite pe Web sau in copierea gandurilor sau a textelor de pe alte site-uri fara a mentiona sursa.

# 2 Diferite versiuni ale site-ului

Vorbesc despre cazul HTTP / HTTPS si www / non-www, situatii care apar atunci cand webmasterul nu a implementat o redirectionare 301 intre diferitele versiuni ale site-ului.

De exemplu, fara o redirectionare, Googlebot poate accesa aceeasi pagina (cu si fara www) prin intermediul a 4 adrese URL diferite:

https://example.com
http://example.com
https://www.example.com
http://www.example.com

Pentru a configura o redirectionare, puteti utiliza fisierul .htaccess sau pluginuri WordPress specifice .

# 3 Parametri

Daca parametrii sunt utili si fac viata mai usoara pentru dezvoltatori, din punct de vedere SEO, ei genereaza diferite adrese URL care devin o adevarata durere de cap pentru specialistul SEO care se ocupa de site.

Nu toti parametrii sunt la fel.

https://example.com/item?source=ppc
https://example.com/pants?colore=red

Exista parametri de urmarire care nu au nicio influenta asupra continutului paginii si pot fi ignorati in siguranta prin aplicarea unui link canonic in sectiunea <head> a paginii, care va permite sa specificati versiunea pe care o vreti indexata.

In acest fel, Google nu va indexa toate valorile diferite ale parametrului, evitand astfel inserarea a zeci sau sute de continut duplicat inutil in baza sa de date.

Exista, de asemenea, parametri care modifica literal textul paginii.

Ma refer la celebra faceted navigation, adica acel filtru care apare adesea in magazinele online al produselor fizice pentru a filtra pagina dupa pret, culori, variante si alte caracteristici.

Din punct de vedere SEO, aceasta situatie este foarte delicata. In functie de caz, poate exista interesul de a le ignora sau de a le considera ca o modalitate de a genera pagini separate cu pozitionare si scop independent.

De exemplu, paginile „pantaloni maro pentru femei” si „ pantaloni albastri pentru femei ” vor avea continut distinct, care poate fi afisat in diferite SERP cu vizitatori interesati de produse complet diferite.

# 4 Thin content

Continutul subtire sau thin content , de obicei, sunt pagini excesiv de scurte sau care nu au nimic original, dar care reprezinta sectiuni ale site-ului publicate deja in alte adrese URL.

Paginile de arhiva WordPress precum etichete, autori si date se incadreaza in aceasta definitie. Acest continut poate fi imbogatit cu informatii originale sau puteti utiliza o metaeticheta „noindex, follow” .

Problema paginarii merita o discutie separata , adica arhivele care contin liste de postari pe mai multe pagini, cum ar fi 2,3,4,5. Se aplica acelasi argument mentionat mai sus: fie continutul este imbogatit , fie se foloseste metaeticheta „noindex, follow” .

# 5 Boilerplate content

Adesea, nu acordam atentie continutului din boilerplate, adica continutul prezent in antet, subsol si bara laterala , dar pentru multe site-uri reprezinta o parte buna a textului de pe pagina si fiind prezent in fiecare adresa URL, poate deveni un problema.

O solutie poate fi implementarea variatiilor bazate pe sectiunea site-ului in care se afla utilizatorul. Spre exemplu, daca oferim servicii in mai multe orase, este inutil sa afisam si Bucuresti unui utilizator ce face cautarea din Cluj

Solutii practice la problema continutului duplicat

Acum sa vedem cateva solutii practice pentru gestionarea continutului duplicat.

1. Spunetii motorului de cautare cum sa gestioneze parametrii

In contul dvs. Search Console exista o sectiune dedicata „Parametri URL” in care puteti specifica functionalitatea fiecarui parametru. Deci, puteti spune cum sa ia in considerare diferitii parametri atunci cand ii intalneste in urmatoarea accesare cu crawlere.

In procedura, pentru fiecare parametru puteti alege:

Nu, nu afecteaza continutul paginii (de exemplu: utilizarea codurilor de tracking).
Da, editati, reordonati sau limitati continutul paginii.

2. Link Canonical

Specificand versiunea oficiala a paginii, veti instrui Google sa nu indexeze variantele pe care le-ar putea gasi atunci cand acceseaza cu crawlere site-ul.

3. Redirectionati 301

Folosind fisierul .htaccess puteti implementa o redirectionare 301 intre pagini identice care nu au o utilizare practica, evitand risipirea bugetelor de accesare cu crawlere.

De exemplu, pentru a redirectiona de la non-www la www cu .htaccess puteti utiliza aceste reguli:

RewriteEngine On

RewriteCond %{HTTP_HOST} !^www\.

RewriteRule ^(.*)$ http://www.%{HTTP_HOST}/$1 [R=301,L]

4. Rel Alternate

In prezenta diferitelor versiuni ale site-ului, ca in cazul multilingvului sau mobilului, ar trebui sa utilizati rel = “alternativ”:

In acest fel, Googlebot va sti ca nu este continut duplicat, ci versiuni ale aceleiasi pagini

Cum puteti gasi continut duplicat pe un site

In primul rand, trebuie sa distingem tipul de duplicare a continutului, in raport cu locul in care apare.

Continut duplicat intre diferite domenii

Pentru a gasi continut duplicat extern site-ului, exista servicii speciale precum Copyscape sau puteti cauta manual una sau mai multe fraze ale articolului dvs., utilizand ghilimele duble pe Google.

Continut duplicat intern (in acelasi domeniu)

In cadrul unui domeniu specific, cel mai bun mod de a gasi pagini cu continut duplicat este sa folositi un crawler extern. Exista diverse solutii cloud precum SEMrush sau desktop precum Screaming Frog.

# 1 Comparati etichetele de titlu si meta descrierile

Identificati toate adresele URL care au acelasi titlu sau meta descriere si asigurati-va ca au deja o legatura canonica, meta roboti noindex sau alta masura pentru a evita duplicarea in indexul Google.

In caz contrar, ar fi un continut duplicat real care trebuie tratat in mod absolut cu solutiile deja examinate in acest ghid.

# 2 Comparati adresele URL

Dorind sa fie si mai precis in cautarea dvs., ar trebui sa sortati adresele URL. Dintr-o privire, puteti afla imediat daca parametrii au fost utilizati sau daca exista structuri care urmeaza un model recurent.

De exemplu, paginarea arhivei WordPress , care contine adesea continut subtire, este recunoscuta vizual prin structura URL:

ro/page/2
ro/page/3
ro/page/4

Intrebari frecvente

Pe langa acest ghid, as dori sa raspund la cateva intrebari frecvente pe aceasta tema.

Care este diferenta dintre plagiat si content curation ?

Spre deosebire de plagiat, content curation consta in repropunerea unor parti din textele altor persoane oferind o valoare suplimentara si citand autorul ca sursa.

Partajarea unui articol pe retelele social genereaza continut duplicat ?

Din punct de vedere tehnic, este continut duplicat, dar pe de alta parte, Google stie foarte bine cum sa faca fata acestor situatii si milioane de site-uri partajeaza continut pe Facebook si Twitter. Cu toate acestea, pot fi utilizate masuri de precautie, cum ar fi utilizarea unui backlink catre sursa si implementarea link-ului canonic.