Jak je definován crawl budget?

Crawl budget je čas, který vyhledávače denně stráví na vašich stránkách, nebo počet stránek, které za den prohledají. Vyhledávače musí rozdělit svou pozornost na všechny weby na internetu. Vzhledem k jeho nesmírné velikosti je třeba, aby si při procházení webů stanovily priority. K tomu jim pomáhá právě crawl budget.

Crawl budget je v oblasti SEO běžný termín. V angličtině se mu občas se mu občas říká také crawl space nebo crawl time.

Proč byste se měli zajímat o crawl budget?

Je žádoucí, aby vyhledávače našly co nejvíce vašich indexovatelných stránek a aby to udělaly co nejrychleji.

Pokud ale zbytečně plýtvají časem, který k tomu mají určený, nejspíš se jim to nepodaří. Nestihnou ani objevit všechny vaše stránky. Ty, které vynechají, zůstanou pro potenciální návštěvníky ve vyhledávačích nedostupné, což snižuje vaši šanci na úspěch. Optimalizace prohledávání stránek by tedy měla patřit mezi priority.

Jak velký crawl budget je určený pro váš web?

Google v tomto ohledu poskytuje nejvíce informací ze všech vyhledávačů. Pokud jste svůj web přidali do Google Search Console, můžete se aspoň přibližně dozvědět, jaký crawl budget je pro něj určený (samozřejmě jen v rámci Googlu).

Přihlaste se do Google Search Console, vyberte web a jděte do Procházení > Statistiky procházení. Tady se vám zobrazí množství stránek, které Google denně projde.

Crawl budget v Google Search Console

Na tomto příkladu vidíme, že průměrný crawl budget pro daný web je 27 stran denně. Takže teoreticky, pokud se nezmění, měsíční crawl budget bude: 27 stran x 30 dnů = 810 stran.

Dalším způsobem, jak získat přehled o tom, jakým způsobem vyhledávače prohledávají váš web, je analyzovat soubory protokolu serveru.

Jakým způsobem optimalizovat crawl budget?

Nejdřív je třeba zjistit, proč se plýtvá. Teď si ukážeme několik nejčastějších důvodů:

  • Nefunkční odkazy nebo přesměrování
  • Dlouhá doba načítání stránek a její vypršení
  • Nesprávná URL v XML sitemap
  • Velké množství neindexovatelných stránek

Nefunkční odkazy nebo přesměrování

Nefunkční odkazy představují pro vyhledávače slepou uličku. Totéž platí pro příliš zřetězená přesměrování. V takovém případě mohou vyhledávače procházení ukončit. Existují limity pro množství zřetězených přesměrování, které vyhledávače a prohlížeče ještě tolerují.

Podobně jako prohlížeče i Google s největší pravděpodobností toleruje maximálně pět navazujících přesměrování. Ačkoliv není úplně jasné, jak s nimi nakládají ostatní vyhledávače, doporučujeme vyhnout se řetězení přesměrování. Také normální přesměrování je vhodné používat co nejméně.

Opravou nefunkčních odkazů a přesměrování můžete rychle získat nazpět část promrhaného crawl budget. Kromě toho také výrazně zlepšíte uživatelskou zkušenost. Přesměrování, a hlavně pak zřetězená přesměrování, způsobují delší načítání stránky, a tím pádem neprospívají uživatelské zkušenosti.

Aplikace ContentKing vám pomůže snadno nalézt nefunkční odkazy a přesměrování. Jděte do sekce Problémy > Odkazy a tam zjistíte, jestli zbytečně plýtváte crawl budget kvůli špatně nastaveným odkazům. Nakonec všechny odkazy aktualizujte tak, aby vedly na indexovatelná URL.

Nefunkční odkazy nebo přesměrování v aplikaci ContentKing

Dlouhá doba načítání stránek a její vypršení

Pokud se stránky dlouho načítají nebo dokonce doba jejich načítání vyprší ještě dřív, než se skutečně načtou, vyhledávače stihnou v rámci přiděleného času navštívit méně stránek. Kromě toho to výrazně zhorší uživatelskou zkušenost a tím pádem i míru konverze.

Jestliže se stránka načítá déle než 2 vteřiny, je to problém. V ideálním případě by doba načítání měla být kratší než 1 vteřinu. Měli byste to pravidelně kontrolovat. Můžete k tomu použít nástroje jako Pingdom, WebPagetest nebo GTmetrix.

Pro Google najdete přehled doby načítání stránek jak v Google Analytics (Chování > Rychlost webu) a v Google Search Console (Procházení > Statistiky procházení).

Google Search Console i Bing Webmaster Tools sledují, jestli během načítání nevypršela doba k tomu určená. V Google Search Console to najdete tady: Procházení > Chyby procházení. V Bingu pak: Sestavy a data > Informace o procházení.

Pravidelně kontrolujte, jestli se vaše stránky načítají dostatečně rychle. V případě, že ne, je třeba to vyřešit. Rychlé načítání stránek je zásadní pro váš úspěch na internetu.

Nesprávná URL v XML sitemap

Chyby v souboru XML sitemap v Google Search Console

Všechna URL v XML sitemap by měla být indexovatelná. To platí hlavně pro velké weby, kde vyhledávače při hledání stránek do velké míry spoléhají právě na soubor sitemap. Pokud váš soubor sitemap obsahuje stránky, které už neexistují nebo jsou přesměrovány, ztrácíte zbytečně crawl budget. Pravidelně proto kontrolujte, jestli soubor neobsahuje neindexovatelná URL, která tam nemají co dělat. Můžete k tomu použít Google Search Console: Procházení > Soubory Sitemap. V Bing Webmaster Tools můžete to samé udělat v: Konfigurace mého webu > Soubory Sitemaps.

Jeden z osvědčených postupů při optimalizaci procházení webu je rozdělit soubor sitemap do několika menších. Můžete například vytvořit jeden soubor pro každou sekci vašeho webu zvlášť. Díky tomu pak můžete rychle určit, ve které sekci se vyskytují problémy. Pokud například vaše XML sitemap pro sekci A obsahuje 500 odkazů a z toho 480 je indexovaných, znamená to, že je všechno docela v pořádku. Pokud ale vaše sitemap pro sekci B obsahuje také 500 odkazů a z toho vyhledávače indexovaly jen 120, je třeba zjistit proč. Možná jste do sitemap této sekce zahrnuli hodně neindexovatelných URL.

Velké množství neindexovatelných stránek

Pokud váš web obsahuje velké množství neindexovatelných stránek, které jsou ale pro vyhledávače přístupné, zbytečně je pak zaměstnáváte procházením těchto nedůležitých stránek.

Abyste zjistili, jestli skutečně máte příliš mnoho neindexovatelných stránek, zkontrolujte celkový počet stránek, které vyhledávače na vašem webu našly. K tomu můžete použít Screaming Frog nebo aplikaci ContentKing.

V aplikaci ContentKing se celkový počet procházených stránek zobrazuje v sekci Stránky vlevo nahoře.

Množství prohledaných stránek v aplikaci ContentKing

Srovnejte toto číslo s počtem indexovaných stránek pomocí vyhledávacího dotazu site:

Množství indexovaných stránek v Bingu

V našem příkladu jsme nalezli více než 200 000 stránek, z nichž Bing indexoval pouze 30 000. To může mít dvě různé příčiny:

  1. Vyhledávače ještě neskončily s indexací webu a je pouze otázkou času, než projdou celý web. Takže těchto 30 000 stránek není konečné číslo.
  2. Vyskytl se nějaký problém, pokud jde o crawl budget. Tomu je třeba věnovat pozornost a zjistit, které sekce jsou pro vyhledávače přístupné, přestože by neměly být. Pak je nutné upravit soubor robots.txt tak, aby vyhledávače tyto sekce neprocházely.

Struktura vnitřních odkazů

Při optimalizaci procházení webu hraje důležitou roli i to, jakým způsobem na sebe odkazují jednotlivé stránky webu. Nazývá se to struktura vnitřních odkazů. Stránkám, které mají málo vnitřních odkazů, vyhledávače nevěnují tolik pozornosti jako stránkám, na které odkazuje spousta jiných stránek (nebereme teď v úvahu zpětné odkazy).

Vyhněte se hierarchické struktuře, kde prostřední stránky nezískávají mnoho odkazů. Tyto stránky totiž nebudou tak často procházeny. Ještě hůř na tom budou stránky na konci této hierarchie. Kvůli nedostatku odkazů by je vyhledávače mohly úplně vynechat.

Zajistěte, aby vaše nejdůležitější stránky měly dostatek vnitřních odkazů. Stránky, které vyhledávače nedávno navštívily, se obvykle ve výsledcích umisťují lépe. Pamatujte na to a přizpůsobte tomu strukturu vnitřních odkazů.

Jestliže máte například článek na blogu z roku 2011, který stále přivádí spoustu návštěvníků na váš web, ujistěte se, že na něj stále odkazujete z jiných částí webu. Protože jste od té doby určitě napsali spoustu jiných článků, ten z roku 2011 se automaticky posunuje dolů ve vaší struktuře odkazů.

Jaké jsou nejčastější důvody plýtvání crawl budget?

Velmi často narážíme na několik důvodů plýtvání crawl budget. Níže si je popíšeme a zároveň vysvětlíme, jak ztracený crawl budget získat zpět:

  1. Produktové filtry
  2. Indexovatelné stránky interního vyhledávání
  3. Tag pages

První dva body představují pro vyhledávače pasti. Vytvářejí nekonečná množství URL přístupných pro vyhledávače, což je z hlediska crawl budget velký problém.

Produktové filtry

Pokud jde o produktové filtry, každé kritérium má alespoň dvě hodnoty. Kombinování těchto kritérií umožňuje návštěvníkům dostat se snáze k tomu, co hledají. Je to tedy velmi praktický nástroj. Pokud jsou ovšem produktové filtry přístupné pro roboty, vzniká nekonečné množství URL, a to pro vyhledávače představuje past.

Řešení:

  1. Pomocí souboru robots.txt zakažte vyhledávačům přístup na URL produktových filtrů. Pokud se z nějakého důvodu chcete vyhnout tomuto řešení, také v Google Search Console a v Bing Webmaster Tools můžete Googlu a Bingu procházení těchto URL zakázat.
  2. Přidejte rel=”nofollow” k odkazům na filtrovaných stránkách.

Indexovatelné stránky interního vyhledávání

Obvykle není důvod, aby vyhledávače procházely a následně indexovaly stránky interního vyhledávání. Mohlo by to snadno vést ke vzniku duplicitního obsahu, čemuž je lepší se vyhnout. Pokud tedy nechcete, aby vyhledávače prohledávaly a indexovaly stránky interního vyhledávání, musíte je o tom informovat.

Řešení: Pomocí souboru robots.txt můžete vyhledávačům snadno zakázat přístup na stránky interního vyhledávání. Můžete se podívat na příklad souboru robots.txt pro web ve WordPressu, který řeší tento problém. Pokud se z nějakého důvodu chcete vyhnout tomuto řešení, také v Google Search Console a v Bing Webmaster Tools můžete Googlu a Bingu procházení těchto stránek zakázat.

Tag pages

Dalším, tentokrát méně technickým, důvodem, proč máte velké množství neindexovatelných stránek, může být, že jste používal tagy pro články na svém blogu v roce 2010. Pokud rád píšete, časem jste určitě nashromáždil tisíce tagů. Když jste se dozvěděl o Google Panda, rozhodl jste se začít používat tag pages.

Ty řeší možné problémy s indexací, ale zároveň vytváří problémy s procházením stránek: vyhledávače tyto stránky procházejí, ale po čase, když zjistily, že je nemohou indexovat, začaly je ignorovat. Nicméně pořád na nich plýtvají crawl budget.

Řešení: Pomocí souboru robots.txt můžete vyhledávačům snadno zakázat přístup na tag pages.

Jak zvýšit crawl budget pro váš web?

Rozhovor Erica Enga a šéfa antispamového týmu Googlu Matta Cuttse objasnil vztah mezi autoritou a crawl budget.

Matt Cutts řekl:

Množství stránek, které prohledáme, je přibližně úměrné PageRanku. Takže pokud máte hodně příchozích odkazů na vaši hlavní stránku, rozhodně ji projdeme. Vaše hlavní stránka pak může odkazovat na další stránky, ty budou mít vyšší PageRank a my je prohledáme také. Nicméně, čím se noříme do webu hlouběji, PageRank má tendenci klesat.

Přestože Google přestal veřejně aktualizovat hodnoty PageRanku, myslíme si, že je stále součástí jeho algoritmů. Protože PageRank je matoucí pojem, budeme raději mluvit o autoritě stránky. Matt Cutts v podstatě řekl: existuje silný vztah mezi autoritou stránky a crawl budget.

Takže na to, abyste zvýšili crawl budget svého webu, potřebujete zvýšit jeho autoritu. To se dá z velké části zajistit tím, že získáte více odkazů z jiných webů.

Často kladené otázky ohledně crawl budget

  1. Jak zvýším crawl budget?
  2. Měl bych používat kanonická URL a meta robots?

1. Jak zvýším crawl budget?

Google oznámil, že existuje silný vztah mezi autoritou stránky a crawl budget. Čím větší je autorita stránky, tím větší crawl budget tato stránka má.

2. Měl bych používat kanonická URL a meta robots?

Ano. Je důležité rozumět rozdílu mezi problémy s indexací a problémy s procházením webu.

Kanonická URL a meta tagy robots dávají vyhledávačům jasný signál, které stránky by neměly indexovat, ale nebrání jim tyto stránky procházet. Abyste vyřešili problémy s procházením, můžete použít soubor robots.txt a link rel=”nofollow”.

Jste připraveni vyzkoušet ContentKing?

Objevte, co se děje na vašem webu.
Vložte platnou doménu, prosím (www.priklad.cz).