Ce este fișierul Robots.txt într-un domeniu?
Instrumente Pentru Webmaster Site Uri Seo Erou / / March 19, 2020
Ultima actualizare la
Una dintre cele mai mari greșeli ale noilor proprietari de site-uri web este să nu se uite în fișierul lor robots.txt. Deci, ce este oricum și de ce atât de important? Avem răspunsurile tale.
Dacă dețineți un site web și vă interesează sănătatea SEO a site-ului dvs., ar trebui să vă familiarizați cu fișierul robots.txt din domeniul dvs. Credeți sau nu, că este un număr tulburător de mare de oameni care lansează rapid un domeniu, instalează un site web WordPress rapid și nu vă deranjați niciodată să faceți nimic cu fișierul lor robots.txt.
Asta e periculos. Un fișier robots.txt prost configurat poate distruge sănătatea SEO a site-ului dvs. și poate deteriora toate șansele pe care le aveți pentru creșterea traficului.
Ce este fișierul Robots.txt?
robots.txt fișierul este numit în mod corespunzător, deoarece este esențial un fișier care listează directivele pentru roboții web (cum ar fi roboții motoarelor de căutare) despre cum și ce pot să se târască pe site-ul dvs. web. Acesta a fost un standard web urmat de site-uri web din 1994 și toate crawler-urile majore respectă standardul.
Fișierul este stocat în format text (cu o extensie .txt) în folderul rădăcină al site-ului dvs. web. De fapt, puteți vedea fișierul robot.txt al oricărui site doar tastând domeniul urmat de /robots.txt. Dacă încercați acest lucru cu groovyPost, veți vedea un exemplu de fișier robot.txt bine structurat.
Fișierul este simplu, dar eficient. Acest fișier de exemplu nu diferențiază între roboți. Comenzile sunt emise tuturor roboților folosind butonul Agent utilizator: * directivă. Aceasta înseamnă că toate comenzile care îl urmează se aplică tuturor roboților care vizitează site-ul pentru a-l accesa.
Specificarea crawlerilor web
De asemenea, puteți specifica reguli specifice pentru anumite crawlere web. De exemplu, puteți permite Googlebot (crawler-ul web Google) să ruleze toate articolele de pe site-ul dvs., dar poate doriți să nu permiteți crawler-ului rusesc Yandex Bot să nu articole cu crawling pe site-ul dvs. despre informații disprețuitoare Rusia.
Există sute de crawlere web care parcurg internetul pentru informații despre site-uri web, dar cele 10 cele mai frecvente ar trebui să vă preocupați sunt enumerate aici.
- Googlebot: Motorul de căutare Google
- Bingbot: Motorul de căutare Bing al Microsoft
- Slurp: Motor de căutare Yahoo
- DuckDuckBot: Motorul de căutare DuckDuckGo
- Baiduspider: Motorul de căutare chinezesc Baidu
- YandexBot: Motorul de căutare Yandex rus
- Exabot: Motor de căutare francez Exalead
- Facebot: Botul cu crawlere Facebook
- ia_archiver: Crawler-ul de clasificare web al Alexa
- MJ12bot: Baza de date de indexare a legăturilor mari
Luând exemplul de mai sus, dacă doriți să permiteți Googlebot să indexeze totul pe site-ul dvs., dar ați dorit blocarea Yandex de la indexarea conținutului articolului dvs. rusesc, ați adăuga următoarele linii la robotii dvs. fişier.
User-agent: googlebot
Renunță: Renunță: / wp-admin /
Renunță: /wp-login.php
User-agent: yandexbot
Renunță: Renunță: / wp-admin /
Renunță: /wp-login.php
Interzice: / Rusia /
După cum puteți vedea, prima secțiune împiedică doar Google să-și acceseze pagina de conectare WordPress și paginile administrative. A doua secțiune blochează Yandex din același, dar și din întreaga zonă a site-ului dvs., unde ați publicat articole cu conținut anti-Rusia.
Acesta este un exemplu simplu al modului în care puteți utiliza funcția Disallow comanda de a controla anumite crawlere web care vă vizitează site-ul.
Alte comenzi Robots.txt
Interzicerea nu este singura comandă la care aveți acces în fișierul dvs. robots.txt. Puteți utiliza, de asemenea, oricare dintre celelalte comenzi care vă vor direcționa modul în care un robot vă poate accesa site-ul.
- Disallow: Spune utilizatorului-agent să evite scurgerea de URL-uri specifice sau secțiuni întregi ale site-ului dvs.
- Permite: Vă permite să reglați anumite pagini sau subfoldere de pe site-ul dvs., chiar dacă ați putea renunța la un folder părinte. De exemplu, puteți dezactiva: / despre /, dar apoi permiteți / / despre / ryan /.
- Crawl de întârziere: Acest lucru îi spune crawlerului să aștepte xx numărul de secunde înainte de a începe să parcurgă conținutul site-ului.
- Harta site-ului: Furnizați motoarelor de căutare (Google, Ask, Bing și Yahoo) locația site-urilor dvs. XML.
Rețineți că roboții vor numai ascultați comenzile pe care le-ați furnizat atunci când specificați numele botului.
O greșeală obișnuită pe care o fac oamenii este de a interzice zonele precum / wp-admin / de la toți roboții, dar apoi specifică o secțiune googlebot și nu permite decât alte zone (cum ar fi / despre /).
Întrucât roboții nu urmăresc decât comenzile specificate în secțiunea lor, trebuie să restabiliți toate celelalte comenzi pe care le-ați specificat pentru toți roboții (folosind * user-agent).
- Disallow: Comanda folosită pentru a spune unui agent utilizator să nu cearcănească o anumită adresă URL. Pentru fiecare adresă URL este permisă doar o singură linie „Renunță:”.
- Permite (se aplică numai pentru Googlebot): Comanda de a-i spune Googlebot că poate accesa o pagină sau subfolder, chiar dacă pagina sau subfolderul parental poate fi respins.
- Crawl de întârziere: Câte secunde ar trebui să aștepte un crawler înainte de a încărca și a accesa conținutul paginii. Rețineți că Googlebot nu recunoaște această comandă, dar rata de accesare a crawlului poate fi setată în Google Search Console.
- Harta site-ului: Folosit pentru a apela locația unui sitemap XML asociat cu această adresă URL. Rețineți că această comandă este acceptată doar de Google, Ask, Bing și Yahoo.
Rețineți că robots.txt are rolul de a ajuta roboții legitimați (cum ar fi robotii de căutare) să-și acceseze mai eficient site-ul.
Există o mulțime de crawlere nefaste de acolo, care vă târăsc site-ul dvs., pentru a face lucruri precum razuirea adreselor de e-mail sau pentru a vă fura conținutul. Dacă doriți să încercați să utilizați fișierul dvs. robots.txt pentru a bloca acei crawlere să nu acceseze nimic pe site-ul dvs., nu vă deranjați. Creatorii acelor crawlere ignoră, de obicei, tot ceea ce ați introdus în fișierul dvs. robots.txt.
De ce să interzicem ceva?
Obținerea motorului de căutare Google pentru a trage cât mai mult conținut de calitate pe site-ul dvs. este o preocupare principală pentru majoritatea proprietarilor de site-uri web.
Cu toate acestea, Google cheltuiește doar un număr limitat buget crawl și viteza de crawl pe site-uri individuale. Rata de accesare la crawlere este numărul de solicitări pe secundă pe Googlebot pe site-ul dvs. în timpul evenimentului de crawling.
Mai important este bugetul de accesare, care este numărul de cereri totale pe care Googlebot le va face pentru a accesa site-ul dvs. într-o singură sesiune. Google își „cheltuiește” bugetul de accesare cu crawlere concentrându-se pe zonele site-ului dvs. care sunt foarte populare sau s-au schimbat recent.
Nu sunteți orbi de aceste informații. Dacă vizitați Instrumente pentru webmaster Google, puteți vedea cum manipulează crawlerul site-ul dvs.
După cum vedeți, crawlerul își menține activitatea pe site-ul dvs. destul de constant în fiecare zi. Nu parcurge toate site-urile, ci doar cele pe care le consideră cele mai importante.
De ce lăsați la Googlebot să decidă ce este important pe site-ul dvs., când puteți utiliza fișierul dvs. robot.txt pentru a-i spune care sunt cele mai importante pagini? Acest lucru va împiedica Googlebot să piardă timpul în paginile cu valoare scăzută de pe site-ul dvs.
Optimizarea bugetului dvs. de accesare
Instrumentele pentru webmaster Google vă permite, de asemenea, să verificați dacă Googlebot citește fișierul dvs. robots.txt bine și dacă există erori.
Acest lucru vă ajută să verificați dacă ați structurat corect fișierul dvs. robots.txt.
Ce pagini ar trebui să renunțați la Googlebot? Este bine ca site-ul dvs. SEO să nu permită următoarele categorii de pagini.
- Pagini duplicate (cum ar fi pagini prietenoase cu imprimanta)
- Vă mulțumim pagini în urma comenzilor bazate pe formular
- Formulare de interogare pentru comenzi sau informații
- Pagini de contact
- Pagini de conectare
- Pagini „vânzări” ale magnetului de plumb
Nu ignorați fișierul dvs. Robots.txt
Cea mai mare greșeală pe care o fac noii proprietari de site-uri este să nu se uite niciodată la fișierul robots.txt al acestora. Cea mai gravă situație ar putea fi că fișierul robots.txt blochează de fapt site-ul dvs. sau zonele site-ului dvs., de la a nu fi accesate cu crawlere.
Asigurați-vă că consultați fișierul dvs. robots.txt și asigurați-vă că este optimizat. Astfel, Google și alte motoare de căutare importante „văd” toate lucrurile fabuloase pe care le oferiți lumii cu site-ul dvs. web.