Ce este fisierul robots.txt si cum trebuie utilizat !

Fisierul robots.txt este unul dintre principalele moduri utilizate pentru a comunica mai bine cu motoarele de cautare.

Poate va intrebati: „ce inseamna sa comunicati cu motoarele de cautare !?”. Nu va faceti griji ca va voi explica in curand.

O sa vedem ce este fisierul robots.txt si mai tarziu vom vedea si cum ar trebui sa fie utilizat. 

Va veti da seama ca fisierul va fi destul de usor de complectat, dar trebuie sa fiti foarte atenti atunci cand il editati. O mica greseala ar putea compromite clasamentul dvs. pe motoarele de cautare.

Acum, nu va panicati, deoarece datorita acestui ghid veti putea crea fisierul robots.txt fara probleme. Daca aveti vreo indoiala, puteti oricand sa-mi lasati comentariul dvs. in partea de jos a articolului iar eu va voi ajuta.

Sa incepem cu ghidul:

Ce este fisierul robots.txt

Fisierul robots.txt este un fisier text normal care contine siruri speciale ce sunt utilizate pentru a comunica cu motoarele de cautare precum Google, Bing, Yahoo etc.

Daca nu stiati, pentru a verifica starea site-ului dvs., acestia folosesc boti sau crawlers.

Puteti crea acest fisier pur si simplu folosind Windows Notepad, deoarece acest program va salveaza deja fisierul in format .txt . 

Orice alt format nu poate fi citit de motoarele de cautare.

Sintaxa care trebuie folosita pentru crearea fisierului robots.txt este foarte simpla, deoarece trebuie sa fie usor de citit de acesti roboti atunci cand verifica site-ul.

Puteti face mai multe lucruri datorita folosirii acestui fisier si acum va voi explica.

Ce puteti face cu fisierul robots.txt

Fisierul robots.txt este utilizat doar pentru a controla traficul crawlerilor pe site-ul dvs.

In general, este folosit pentru a impiedica supraincarcarea serverului de catre robotii care vin sa va viziteze site-ul sau pentru a evita irosirea resurselor pretioase prin blocarea accesului la pagini sau articole care nu sunt relevante.

Avertisment: nu trebuie sa folositi fisierul robots.txt ca mijloc de a va ascunde paginile web sau articolele din rezultatele cautarii .

Daca nu doriti ca pagina dvs. sa apara pe motoarele de cautare, va recomand sa utilizati o alta metoda. De exemplu, puteti utiliza pluginul WordPress „ Yoast SEO ”, deoarece va permite sa adaugati eticheta „ noindex ” la fiecare pagina web.

In mod alternativ, puteti adauga aceasta eticheta manual, introducand urmatorul cod in sectiunea „ <head> ” in pagina pe care nu doriti sa o indexati pe motoarele de cautare:

<meta name=”robots” content=”noindex”>

Acestea fiind spuse, retineti ca este posibil ca unii „roboti” sa nu urmeze corect eticheta meta “ noindex ”. Drept urmare, pagina dvs. poate continua sa apara in rezultatele anumitor motoare de cautare.

In ceea ce priveste Google, Bing si Yahoo, nu va faceti griji, deoarece vor citi corect fisierul robots.txt.

Sintaxa corecta de utilizat

Acum ca am vazut pentru ce se foloseste exact fisierul robots.txt, sa vedem sintaxa corecta pe care trebuie sa o utilizati pentru a crea acest fisier.

Primul lucru pe care trebuie sa-l stiti este ca incepeti intotdeauna sa scrieti acest fisier prin a defini un „ user-agent ”. Aceasta sintaxa nu este altceva decat numele robotului care viziteaza site-ul nostru web.

Deci, pentru fiecare motor de cautare avem un „ user-agent ” diferit , astfel incat sa putem fi mai specifici.

Sa vedem mai jos un exemplu practic, astfel incat sa puteti intelege mai bine:

User-agent: *

Disallow: /

User-agent: Googlebot

Disallow:

User-agent: bingbot

Disallow: /non-per-bing/

Dupa cum vedeti pe prima linie, am introdus agentul utilizator cu un asterisc. Asteriscul inseamna ca dorim ca urmatoarea regula sa fie citita de toate motoarele de cautare.

In cel de-al doilea exemplu am scris „ User-agent: Googlebot ” ceea ce inseamna ca urmatoarea regula va fi citita doar de catre robotii Google si nu de alte motoare de cautare. Acelasi lucru pentru „User-agent: bingbot”, robotul lui Bing.

Mai jos este prezentat un tabel care contine cei mai comuni user-agents:

Motor de cautareTip robotUser-Agent
Baidugeneralbaiduspider
Baiduimaginibaiduspider-image
Baidumobilebaiduspider-mobile
Baidunewsbaiduspider-news
Baiduvideobaiduspider-video
Binggeneralbingbot
Binggeneralmsnbot
Bingimagini si videomsnbot-media
Bingpublicitateadidxbot
GooglegeneralGooglebot
GoogleimaginiGooglebot-Image
GooglemobileGooglebot-Mobile
GooglenewsGooglebot-News
GooglevideoGooglebot-Video
Googlepublicitate AdsenseMediapartners-Google
Googlepublicitate AdwordsAdsbot-Google
Yahoogeneraleslurp
Yandexgeneraleyandex

Sintaxa Disallow

Pe a doua linie, dupa cum puteti vedea, avem cuvintele “Disallow: /“.

Elementul „ Disallow” este folosit pentru a spune motoarelor de cautare sa scaneze anumite pagini sau fisiere de pe site-ul nostru.

Daca scriem „ Disallow : /” inseamna ca dam cale libera robotilor . Pentru a bloca accesul la un director sau folder specific, trebuie sa complectati fisierul dupa cum urmeaza:

User-agent: *

Disallow: /foto

In acest fel, le spunem tuturor motoarelor de cautare sa nu scaneze folderul „/ foto” de pe site-ul nostru. Fisierul robots.txt este case sensitive, adica sensibil la litere majuscule si minuscule. Asadar, scrierea „/ foto” sau „/ Foto” nu este acelasi lucru .

Dar daca vreti spre exemplu ca robotul sa scaneze toate pozele din folderul foto mai putin cele cu extensia jpg.(sau oricare alta), puteti introduce urmatoarea comanda

User-agent: *

Disallow: /foto/*jpg

In plus fata de comanda „Disallow”, ar exista si altele.

Pe baza experientei mele personale, va pot garanta ca nu le-am vazut niciodata folosite de nimeni, deoarece nu sunt acceptate de toate motoarele de cautare.

Din acest motiv, va sfatuiesc sa va concentrati doar pe utilizarea functiei „Disallow”.

Unde ar trebui sa fie plasat fisierul robots.txt

Dupa ce ati trecut la crearea fisierului robots.txt (o puteti face si cu Windows Notepad), trebuie sa-l incarcati in radacina principala a site-ului dvs. Mai precis in folderul public_html

Exemplu : www.siteultau.ro/robots.txt

Aveti grija sa redenumiti fisierul in mod corect, altfel motoarele de cautare nu il vor putea gasi si, prin urmare, nu va vor putea scana site-ul. Fisierul trebuie redenumit „roboti.txt” asa cum il vedeti scris, totul cu minuscule .

Dupa ce ati plasat fisierul in directorul principal al site-ului, incercati sa verificati daca acest fisier este afisat corect. Puteti face acest lucru pur si simplu accesand adresa URL unde a fost introdus fisierul sau pe  www.siteultau.ro/robots.txt .

Dezavantajul folosirii fisierului robots.txt

Folosind fisierul robots.txt are beneficiile sale, dar trebuie sa fiti atenti, deoarece acest fisier nu va permite sa blocati continutul de a fi indexate pe motoarele de cautare.

Daca doriti sa faceti acest lucru, si aveti un site facut cu WordPress va sugerez sa utilizati pluginul „ Yoast SEO ”. Acesta va fi de mare folos pentru a va imbunatati pozitionarea pe motoarele de cautare.

Daca doriti sa aflati mai multe despre SEO, cititi si:  ce este SEO si cum se face.

Cum se verifica fisierul robots.txt

Dupa ce ati introdus fisierul robots.txt pe site-ul dvs., a venit momentul sa il verificati.

Este suficient sa accesati urmatorul link: https://technicalseo.com/tools/robots-txt/, si sa urmati instructiunile.

Concluzie

In acest articol am explicat ce este fisierul robots.txt, cum se creeaza si cum se utilizeaza

Asa cum am spus, fiti foarte atenti la crearea acestuia, deoarece este foarte important ca sintaxa sa fie corecta, altfel motoarele de cautare nu vor citi fisierul .

De asemenea, aveti grija sa scrieti totul cu litere mici. Daca aveti indoieli sau daca aveti intrebari despre cum sa creati fisierul robots.txt, va rugam sa-mi lasati comentariu, iar eu va voi ajuta cu mare placere.

Bolboaca O.Alin Codrut
Bolboaca O.Alin Codrut

Sunt un liber profesionist și mă ocup in principal de SEO, SEM, WEB Analytics, WordPress și Inbound Marketing.

Ai nevoie de ajutor ? Contacteaza-ma: info@jurnaldedigitalmarketing.com

Despre Mine

Aboneaza-te la newsletter

Lasă un comentariu

Cere o consultanta gratuita

Va multumim !

Vă vom contacta in cel mai scurt timp posibil.