Fisierul robots.txt este unul dintre principalele moduri utilizate pentru a comunica mai bine cu motoarele de cautare.
Poate va intrebati: „ce inseamna sa comunicati cu motoarele de cautare !?”. Nu va faceti griji ca va voi explica in curand.
O sa vedem ce este fisierul robots.txt si mai tarziu vom vedea si cum ar trebui sa fie utilizat.
Va veti da seama ca fisierul va fi destul de usor de complectat, dar trebuie sa fiti foarte atenti atunci cand il editati. O mica greseala ar putea compromite clasamentul dvs. pe motoarele de cautare.
Acum, nu va panicati, deoarece datorita acestui ghid veti putea crea fisierul robots.txt fara probleme. Daca aveti vreo indoiala, puteti oricand sa-mi lasati comentariul dvs. in partea de jos a articolului iar eu va voi ajuta.
Sa incepem cu ghidul:
Continut
Ce este fisierul robots.txt
Fisierul robots.txt este un fisier text normal care contine siruri speciale ce sunt utilizate pentru a comunica cu motoarele de cautare precum Google, Bing, Yahoo etc.
Daca nu stiati, pentru a verifica starea site-ului dvs., acestia folosesc boti sau crawlers.
Puteti crea acest fisier pur si simplu folosind Windows Notepad, deoarece acest program va salveaza deja fisierul in format .txt .
Orice alt format nu poate fi citit de motoarele de cautare.
Sintaxa care trebuie folosita pentru crearea fisierului robots.txt este foarte simpla, deoarece trebuie sa fie usor de citit de acesti roboti atunci cand verifica site-ul.
Puteti face mai multe lucruri datorita folosirii acestui fisier si acum va voi explica.
Ce puteti face cu fisierul robots.txt
Fisierul robots.txt este utilizat doar pentru a controla traficul crawlerilor pe site-ul dvs.
In general, este folosit pentru a impiedica supraincarcarea serverului de catre robotii care vin sa va viziteze site-ul sau pentru a evita irosirea resurselor pretioase prin blocarea accesului la pagini sau articole care nu sunt relevante.
Avertisment: nu trebuie sa folositi fisierul robots.txt ca mijloc de a va ascunde paginile web sau articolele din rezultatele cautarii .
Daca nu doriti ca pagina dvs. sa apara pe motoarele de cautare, va recomand sa utilizati o alta metoda. De exemplu, puteti utiliza pluginul WordPress „ Yoast SEO ”, deoarece va permite sa adaugati eticheta „ noindex ” la fiecare pagina web.
In mod alternativ, puteti adauga aceasta eticheta manual, introducand urmatorul cod in sectiunea „ <head> ” in pagina pe care nu doriti sa o indexati pe motoarele de cautare:
<meta name=”robots” content=”noindex”>
Acestea fiind spuse, retineti ca este posibil ca unii „roboti” sa nu urmeze corect eticheta meta “ noindex ”. Drept urmare, pagina dvs. poate continua sa apara in rezultatele anumitor motoare de cautare.
In ceea ce priveste Google, Bing si Yahoo, nu va faceti griji, deoarece vor citi corect fisierul robots.txt.
Sintaxa corecta de utilizat
Acum ca am vazut pentru ce se foloseste exact fisierul robots.txt, sa vedem sintaxa corecta pe care trebuie sa o utilizati pentru a crea acest fisier.
Primul lucru pe care trebuie sa-l stiti este ca incepeti intotdeauna sa scrieti acest fisier prin a defini un „ user-agent ”. Aceasta sintaxa nu este altceva decat numele robotului care viziteaza site-ul nostru web.
Deci, pentru fiecare motor de cautare avem un „ user-agent ” diferit , astfel incat sa putem fi mai specifici.
Sa vedem mai jos un exemplu practic, astfel incat sa puteti intelege mai bine:
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow:
User-agent: bingbot
Disallow: /non-per-bing/
Dupa cum vedeti pe prima linie, am introdus agentul utilizator cu un asterisc. Asteriscul inseamna ca dorim ca urmatoarea regula sa fie citita de toate motoarele de cautare.
In cel de-al doilea exemplu am scris „ User-agent: Googlebot ” ceea ce inseamna ca urmatoarea regula va fi citita doar de catre robotii Google si nu de alte motoare de cautare. Acelasi lucru pentru „User-agent: bingbot”, robotul lui Bing.
Mai jos este prezentat un tabel care contine cei mai comuni user-agents:
Motor de cautare | Tip robot | User-Agent |
---|---|---|
Baidu | general | baiduspider |
Baidu | imagini | baiduspider-image |
Baidu | mobile | baiduspider-mobile |
Baidu | news | baiduspider-news |
Baidu | video | baiduspider-video |
Bing | general | bingbot |
Bing | general | msnbot |
Bing | imagini si video | msnbot-media |
Bing | publicitate | adidxbot |
general | Googlebot | |
imagini | Googlebot-Image | |
mobile | Googlebot-Mobile | |
news | Googlebot-News | |
video | Googlebot-Video | |
publicitate Adsense | Mediapartners-Google | |
publicitate Adwords | Adsbot-Google | |
Yahoo | generale | slurp |
Yandex | generale | yandex |
Sintaxa Disallow
Pe a doua linie, dupa cum puteti vedea, avem cuvintele “Disallow: /“.
Elementul „ Disallow” este folosit pentru a spune motoarelor de cautare sa scaneze anumite pagini sau fisiere de pe site-ul nostru.
Daca scriem „ Disallow : /” inseamna ca dam cale libera robotilor . Pentru a bloca accesul la un director sau folder specific, trebuie sa complectati fisierul dupa cum urmeaza:
User-agent: *
Disallow: /foto
In acest fel, le spunem tuturor motoarelor de cautare sa nu scaneze folderul „/ foto” de pe site-ul nostru. Fisierul robots.txt este case sensitive, adica sensibil la litere majuscule si minuscule. Asadar, scrierea „/ foto” sau „/ Foto” nu este acelasi lucru .
Dar daca vreti spre exemplu ca robotul sa scaneze toate pozele din folderul foto mai putin cele cu extensia jpg.(sau oricare alta), puteti introduce urmatoarea comanda
User-agent: *
Disallow: /foto/*jpg
In plus fata de comanda „Disallow”, ar exista si altele.
Pe baza experientei mele personale, va pot garanta ca nu le-am vazut niciodata folosite de nimeni, deoarece nu sunt acceptate de toate motoarele de cautare.
Din acest motiv, va sfatuiesc sa va concentrati doar pe utilizarea functiei „Disallow”.
Unde ar trebui sa fie plasat fisierul robots.txt
Dupa ce ati trecut la crearea fisierului robots.txt (o puteti face si cu Windows Notepad), trebuie sa-l incarcati in radacina principala a site-ului dvs. Mai precis in folderul public_html
Exemplu : www.siteultau.ro/robots.txt
Aveti grija sa redenumiti fisierul in mod corect, altfel motoarele de cautare nu il vor putea gasi si, prin urmare, nu va vor putea scana site-ul. Fisierul trebuie redenumit „roboti.txt” asa cum il vedeti scris, totul cu minuscule .
Dupa ce ati plasat fisierul in directorul principal al site-ului, incercati sa verificati daca acest fisier este afisat corect. Puteti face acest lucru pur si simplu accesand adresa URL unde a fost introdus fisierul sau pe www.siteultau.ro/robots.txt .
Dezavantajul folosirii fisierului robots.txt
Folosind fisierul robots.txt are beneficiile sale, dar trebuie sa fiti atenti, deoarece acest fisier nu va permite sa blocati continutul de a fi indexate pe motoarele de cautare.
Daca doriti sa faceti acest lucru, si aveti un site facut cu WordPress va sugerez sa utilizati pluginul „ Yoast SEO ”. Acesta va fi de mare folos pentru a va imbunatati pozitionarea pe motoarele de cautare.
Daca doriti sa aflati mai multe despre SEO, cititi si: ce este SEO si cum se face.
Cum se verifica fisierul robots.txt
Dupa ce ati introdus fisierul robots.txt pe site-ul dvs., a venit momentul sa il verificati.
Este suficient sa accesati urmatorul link: https://technicalseo.com/tools/robots-txt/, si sa urmati instructiunile.
Concluzie
In acest articol am explicat ce este fisierul robots.txt, cum se creeaza si cum se utilizeaza.
Asa cum am spus, fiti foarte atenti la crearea acestuia, deoarece este foarte important ca sintaxa sa fie corecta, altfel motoarele de cautare nu vor citi fisierul .
De asemenea, aveti grija sa scrieti totul cu litere mici. Daca aveti indoieli sau daca aveti intrebari despre cum sa creati fisierul robots.txt, va rugam sa-mi lasati comentariu, iar eu va voi ajuta cu mare placere.