Jak je definován crawl budget v SEO?

Crawl budget je počet stránek, které vyhledávače navštíví na vašem webu při procházení. Například za den. Je to zjednodušeně řečeno pozornost, kterou vyhledávače věnují vašemu webu.

Proč vyhledávače přiřazují webům crawl budget?

Protože jejich zdroje nejsou neomezené a musí svoji pozornost rozdělit mezi miliony webů. Potřebují tedy způsob, jak zaměřit své procházení. A přiřazování crawl budgetu jim v tom pomáhá.

Jak je webům přiřazován crawl budget?

Rozdělení je založeno na dvou faktorech, crawl limitu a crawl demand:

  1. Crawl limit: jak moc procházení může web zvládnout a jaké jsou preference jeho vlastníka.
  2. Crawl demand: jak často si web zaslouží být procházen v závislosti na popularitě a také častosti aktualizací.

Crawl budget je v oblasti SEO běžný termín. V angličtině se mu občas se mu občas říká také crawl space nebo crawl time.

Crawl budget

Proč byste se měli zajímat o crawl budget?

Je žádoucí, aby vyhledávače našly (a porozuměly) co nejvíce vašich indexovatelných stránek a aby to udělaly co nejrychleji. Když přidáte nové, nebo aktualizujete existující, chcete aby je vyhledávače zaznamenaly tak rychle, jak je to jen možné. Čím dříve jsou zaindexovány, tím dříve z toho můžete těžit.

Pokud ale zbytečně plýtvají časem, který k tomu mají určený, nejspíš se jim to nepodaří. Stráví čas na těch částech, na kterých třeba vůbec nezáleží a to může vést k tomu, že ty důležité nebudou objeveny. Ty, které vynechají, zůstanou neindexovatelné a nebudou moci přivést návštěvníky na váš web.

Asi si už umíte domyslet, co to zmanená - plýtvání crawl budgetem je špatné pro vaše SEO.

Mějte ale napaměti, že obecně byste se měli strachovat o crawl budget pouze v případě, pokud máte větší web. Řekněme 50 000 a víc stránek.

Jak velký crawl budget je určený pro váš web?

Google v tomto ohledu poskytuje nejvíce informací ze všech vyhledávačů.

Crawl budget v Google Search Console

Pokud jste svůj web přidali do Google Search Console, můžete se aspoň přibližně dozvědět, jaký crawl budget je pro něj určený (samozřejmě jen v rámci Googlu).

Přihlaste se do Google Search Console, vyberte web a jděte do Procházení > Statistiky procházení. Tady se vám zobrazí množství stránek, které Google denně projde.

Postupujte následovně:

  1. Přihlašte se do Google Search Console a vyberte web.
  2. Přejděte do Procházení > Statistiky procházení. Zde můžete vidět počet stránek, které Google projde za den.

Během léta 2016 náš crawl budget vypadal následovně:

Crawl budget v Google Search Console

Na tomto příkladu vidíme, že průměrný crawl budget pro daný web byl 27 stran denně. Takže teoreticky, pokud se nezmění, měsíční crawl budget bude: 27 stran x 30 dnů = 810 stran.

Dva roky poté a podívejme, jaký je náš crawl budget dnes:

Google Search Console Crawl Stats

Náš průměrný crawl budget je 253 stránek denně. Takže lze říci, že náš crawl budget se v posledních dvou letech zdesetinásobil.

Jděte ke zdroji: server logy

Dalším způsobem, jak získat přehled o tom, jakým způsobem vyhledávače prohledávají váš web, je analyzovat soubory protokolu serveru.
Je velmi zajímavé sledovat server logy a vidět, jak často boti Googlu přijdou na váš web. Je také zajímavé si to porovnat se statistikami z Google Search Console. Vždy je totiž lepší se spoléhat na více zdrojů.

Jakým způsobem optimalizovat crawl budget?

Optimalizace crawl budgetu spočívá v tom, že se ujistíte, že s ním není plýtváno. V zásadě tedy v tom, že opravíte důvody jeho plýtvání. Sami monitorujeme tisíce webů a kdybyste zkontrolovali každý z nich ohledně problémů s crawl budgetem, rychle byste rozpoznali určitý vzorec - většina webů trpí těmi samými problémy.

Nejčastější důvody pro jeho plýtvání se kterými se setkáváme, jsou:

  • Dostupné URL adresy s parametry: příkladem URL s parametry je https://www.priklad.com/hracky/auta?barva=cerna. V tomto případě je parametr použit pro uložení výběru navštěvníka ve filtrování produktu.
  • Duplicitní obsah: stránky, které jsou si velmi podobné nebo úplně stejné, nazýváme “duplicitní obsah”. Příkladem jsou: zkopírované stránky, interní výsledky vyhledávání a stránky s tagy.
  • Nekvalitní obsah: stránky, které mají jen velmi málo obsahu nebo nepřináší žádnou hodnotu.
  • Nefunkční odkazy nebo přesměrování: rozbité odkazy jsou takové, které odkazují na již neexistující stránky. Přesměrované odkazy, jsou odkazy na URL adresy, které jsou přesměrovány na další URL.
  • Zahrnutí nesprávného URL v XML sitemapě: neindexovatelné stránky a URL adresy se statusem 3xx, 4xx a 5xx by neměly být ve vaší sitemapě zahrnuty.
  • Stránky s dlouhou dobou načítání / time-outy: stránky, které mají dlouhou dobu načítání nebo se nenačtou vůbec, mají negativní dopad na váš crawl budget, protože je to signál vyhledávačům, že váš web není schopný zpracovat požadavek a ty pak mohou kvůli tomu přizpůsobit limit pro crawl budget.
  • Vysoké množství neindexovaných stránek: web obsahuje velké množství stránek, které nejsou indexovatelné.
  • Špatná struktura vnitřních odkazů: pokud struktura vašich interních odkazů není nastavena správně. Vyhledávače možná nebudou věnovat dostatečnou pozornost některým vašim stránkám.
  • Dostupné URL adresy s parametry

    Ve většině případů by neměly být URL s parametry přístupné vyhledávačům, protože mohou generovat nekonečné množství URL adres. URL s parametry jsou často využívány při implementaci produktových filtrů u eshopů. Je naprosto v pořádku je používat. Ujistěte se ale, že nejsou dostupné pro vyhledávače.

    Jak je znepřístupnit pro vyhledávače?

    1. Dejte vyhledávačům instrukce pomocí svého souboru robots.txt, aby takové URL neprocházely. Pokud to z nějakého důvodu není možné, využijte nastavení URL parametrů v Google Search Console a Bing Webmaster tool a instruujte Google a Bing, jaké stránky neprocházet.
    2. Vložte rel="nofollow" do odkazů filtrů.

    Duplicitní obsah

    Určitě nechcete, aby vyhledávače trávili čas nad duplicitním obsahem stránek. Je tedy důležité zabránit, nebo přinejmenším minimalizovat duplicitní obsah na svém webu.

    Jak to udělat? Pomocí...

    1. Nastavení přesměrování webu pro všechny varianty domény (HTTP, HTTPS, bez-WWW, WWW).
    2. Znepřístupnění interních výsledků vyhledávání vyhledávačům pomocí svého souboru robots.txt. Zde je příklad pro robots.txt u webu na WordPressu.
    3. Zakázání vyhrazených stránek pro obrázky (například: nechvalně známé stránky s obrázky ve WordPressu).
    4. Obezřetnosti ohledně používání taxonomie jako jsou kategorie a tagy.

    Přečtěte si více o duplicitním obsahu z technických důvodů a o tom, jak jej řešit.

    Nekvalitní obsah

    Stránky s malým množstvím obsahu nejsou pro vyhledávače zajímavé. Omezte je na minimum nebo se jim vyhněte úplně, pokud je to možné. Příkladem nekvalitního obsahu může být FAQ sekce s odkazy na zobrazení otázek a odpovědí, kde je jsou jednotlivé otázky a odpovědi dostupné na samostatné URL adrese.

    Nefunkční odkazy nebo přesměrování

    Nefunkční odkazy představují pro vyhledávače slepou uličku. Totéž platí pro příliš zřetězená přesměrování. V takovém případě mohou vyhledávače procházení ukončit. Existují limity pro množství zřetězených přesměrování, které vyhledávače a prohlížeče ještě tolerují.

    Podobně jako prohlížeče i Google s největší pravděpodobností toleruje maximálně pět navazujících přesměrování. Ačkoliv není úplně jasné, jak s nimi nakládají ostatní vyhledávače, doporučujeme vyhnout se řetězení přesměrování. Také normální přesměrování je vhodné používat co nejméně.

    Opravou nefunkčních odkazů a přesměrování můžete rychle získat nazpět část promrhaného crawl budget. Kromě toho také výrazně zlepšíte uživatelskou zkušenost. Přesměrování, a hlavně pak zřetězená přesměrování, způsobují delší načítání stránky, a tím pádem neprospívají uživatelské zkušenosti.

    Abychom vám usnadnili nalezení nefunkčních odkazů na maximum, v ContentKingu je proto vyhrazený speciální problém.
    Jděte do sekce Problémy > Odkazy a tam zjistíte, jestli zbytečně plýtváte crawl budget kvůli špatně nastaveným odkazům. Všechny odkazy aktualizujte tak, aby vedly na indexovatelná URL a odstraňte ty, které už nejsou potřeba.

    Nefunkční odkazy nebo přesměrování v aplikaci ContentKing
    Nefunkční odkazy nebo přesměrování v aplikaci ContentKing

    Zahrnutí nesprávného URL v XML sitemapě

    Všechna URL v XML sitemapě by měla být indexovatelná. To platí hlavně pro velké weby, kde vyhledávače při hledání stránek do velké míry spoléhají právě na soubor sitemap. Pokud váš soubor sitemap obsahuje stránky, které už neexistují nebo jsou přesměrovány, ztrácíte zbytečně crawl budget. Pravidelně proto kontrolujte, jestli soubor neobsahuje neindexovatelná URL, která tam nemají co dělat. Zkontrolujte také opak: najděte stránky, které jsou ze sitemapy nesprávně vyloučeny. XML sitemapa je skvělým způsobem, jak pomoci vyhledávačům využít váš crawl budget dostatečně moudře.

    Google Search Console

    Google Search Console reportuje problémy s XML sitemapou v sekci Procházení > Sitemapy:

    Chyby v XML sitemap v Google Search Console
    Chyby v XML sitemap v Google Search Console

    Bing Webmaster Tools

    Bing Webmaster Tools umí to samé v sekci Configure My Site > Sitemaps.

    ContentKing

    V ContentKingu na to upozorňujeme v sekci Problémy > XML Sitemap
    :

    XML sitemap problém v aplikaci ContentKing
    Problém s XML sitemap v aplikaci ContentKing

    Osvědčeným postupem, jak optimalizovat svůj crawl budget, je rozdělení své XML sitemapy na menší sitemapy. Můžete například vytvořit XML sitemapu pro každou sekci vašeho webu. Pokud tak učiníte, můžete rychleji určit, zda se v určitých částech vašeho webu vyskytují nějaké problémy.

    Řekněme, že XML sitemapa pro sekci A obsahuje 500 odkazů a z toho 480 je indexováno - vedete si tedy dobře. Ale vaše sitemapa pro sekci B obsahuje 500 odkazů a pouze 120 je indexovaných - to je něco, co chcete vyřešit. Možná máte právě v této sekci zahrnuto mnoho neindexovatelných URL.

    Dlouhá doba načítání stránek a její vypršení

    Stránky s dlouhou dobou načítání / time-outy poškozují proces procházení
    Stránky s dlouhou dobou načítání / time-outy poškozují proces procházení

    Pokud se stránky dlouho načítají nebo dokonce doba jejich načítání vyprší ještě dřív, než se skutečně načtou, vyhledávače stihnou v rámci přiděleného času navštívit méně stránek. Kromě toho to výrazně zhorší uživatelskou zkušenost a tím pádem i míru konverze.

    Jestliže se stránka načítá déle než 2 vteřiny, je to problém. V ideálním případě by doba načítání měla být kratší než 1 vteřinu. Měli byste to pravidelně kontrolovat. Můžete k tomu použít nástroje jako Pingdom, WebPagetest nebo GTmetrix.

    Pro Google najdete přehled doby načítání stránek jak v Google Analytics (Chování > Rychlost webu) a v Google Search Console (Procházení > Statistiky procházení).

    Google Search Console i Bing Webmaster Tools sledují, jestli během načítání nevypršela doba k tomu určená. V Google Search Console to najdete tady: Procházení > Chyby procházení. V Bingu pak: Sestavy a data > Informace o procházení.

    Pravidelně kontrolujte, jestli se vaše stránky načítají dostatečně rychle. V případě, že ne, je třeba to vyřešit. Rychlé načítání stránek je zásadní pro váš úspěch na internetu.

    Velké množství neindexovatelných stránek

    Pokud váš web obsahuje velké množství neindexovatelných stránek, které jsou ale pro vyhledávače přístupné, zbytečně je pak zaměstnáváte procházením těchto nedůležitých stránek.

    Za neindexovatelné považujeme následující typy stránek:

    • Přesměrování (3xx)
    • Stránky, které nemohou být nalezeny (4xx)
    • Stránky s chybou serveru (5xx)
    • Stránky, které nejsou indexovatelné (stránky obsahující robots noindex directivu nebo kanonické URL)

    Abyste zjistili, jestli skutečně máte příliš mnoho neindexovatelných stránek, zkontrolujte celkový počet stránek, které vyhledávače na vašem webu našly. K tomu můžete snadno využít aplikaci ContentKing.

    Přehled URL v aplikaci ContentKing
    Přehled URL v aplikaci ContentKing

    V našem příkladu jsme nalezli 63 137 URL, ale jen 20 528 z nich jsou stránky.

    Přehled indexovatelnosti stránek v aplikaci ContentKing
    Přehled indexovatelnosti stránek v aplikaci ContentKing

    A z těchto stránek, je pouze 4 663 indexovatelných. Pouze 7,4 % URL adres, které ContentKing objevil, může být indexovatelných vyhledávači. To není dobrý poměr a tento web jednoznačně musí zapracovat na odstranění všech referencí na ně, které nejsou nutné, včetně:

    • XML sitemap (viz předchozí sekce)
    • Odkazů
    • Kanonické URL adresy
    • Hreflang reference
    • Reference stránkování (link rel prev/next)

    Špatná struktura vnitřních odkazů

    Při optimalizaci procházení webu hraje důležitou roli i to, jakým způsobem na sebe odkazují jednotlivé stránky webu. Nazývá se to struktura vnitřních odkazů. Stránkám, které mají málo vnitřních odkazů, vyhledávače nevěnují tolik pozornosti jako stránkám, na které odkazuje spousta jiných stránek (nebereme teď v úvahu zpětné odkazy).

    Vyhněte se hierarchické struktuře, kde prostřední stránky nezískávají mnoho odkazů. Tyto stránky totiž nebudou tak často procházeny. Ještě hůř na tom budou stránky na konci této hierarchie. Kvůli nedostatku odkazů by je vyhledávače mohly úplně vynechat.

    Zajistěte, aby vaše nejdůležitější stránky měly dostatek vnitřních odkazů. Stránky, které vyhledávače nedávno navštívily, se obvykle ve výsledcích umisťují lépe. Pamatujte na to a přizpůsobte tomu strukturu vnitřních odkazů.

    Jestliže máte například článek na blogu z roku 2011, který stále přivádí spoustu návštěvníků na váš web, ujistěte se, že na něj stále odkazujete z jiných částí webu. Protože jste od té doby určitě napsali spoustu jiných článků, ten z roku 2011 se automaticky posunuje dolů ve vaší struktuře odkazů.

    Jak zvýšit crawl budget pro váš web?

    Rozhovor Erica Enga a šéfa antispamového týmu Googlu Matta Cuttse objasnil vztah mezi autoritou a crawl budget.

    Matt Cutts

    Nejlepším způobem, jak to tom přemýšlet je, že množství stránek, které prohledáme, je přibližně úměrné PageRanku. Takže pokud máte hodně příchozích odkazů na vaši hlavní stránku, rozhodně ji projdeme. Vaše hlavní stránka pak může odkazovat na další stránky, ty budou mít vyšší PageRank a my je prohledáme také. Nicméně, čím se noříme do webu hlouběji, PageRank má tendenci klesat.

    Přestože Google přestal veřejně aktualizovat hodnoty PageRanku, myslíme si, že je stále součástí jeho algoritmů. Protože PageRank je matoucí pojem, budeme raději mluvit o autoritě stránky. Matt Cutts v podstatě řekl: existuje silný vztah mezi autoritou stránky a crawl budget.

    Takže na to, abyste zvýšili crawl budget svého webu, potřebujete zvýšit jeho autoritu. To se dá z velké části zajistit tím, že získáte více odkazů z jiných webů. Více o tom si můžete přečíst v našem průvodci linkbuildingem.

    Často kladené otázky ohledně crawl budget

    1. Jak zvýším crawl budget?
    2. Měl bych používat kanonická URL a meta robots?

    1. Jak zvýším crawl budget?

    Google oznámil, že existuje silný vztah mezi autoritou stránky a crawl budget. Čím větší je autorita stránky, tím větší crawl budget tato stránka má.

    2. Měl bych používat kanonická URL a meta robots?

    Ano. Je důležité rozumět rozdílu mezi problémy s indexací a problémy s procházením webu.

    Kanonická URL a meta tagy robots dávají vyhledávačům jasný signál, které stránky by neměly indexovat, ale nebrání jim tyto stránky procházet. Abyste vyřešili problémy s procházením, můžete použít soubor robots.txt a link rel=”nofollow”.

    Získejte zkušební verzi na 14 dní zdarma

    Začněte během 20 vteřin

    Vložte platnou doménu, prosím (www.priklad.cz).
    • Platební karta není potřeba
    • Není třeba žádná instalace
    • Bez závazků