Nejrůznější crawlovací pasti snižují schopnost procházecích robotů objevit váš web, tím škodí vašemu procesu procházení a indexace a také výslednému rankingu.

Co jsou crawlovací pasti?

V SEO jsou crawlovací pasti známé pod anglickým “crawler traps” a jedná se o takové strukturální problémy na webu, které způsobují, že crawlery mohou nacházet nekonečné množství irelevantních URL adres. Teoreticky tak může bot zůstat zaseknutý v jediné části webu, aniž by procházení těchto URL někdy dokončil. A z toho důvodu to nazýváme “crawlovací” pastí.

V angličtině můžete narazit také na název “spider traps”.

Crawlovací pasti - ilustrace

Proč by mě měly crawlovací pasti zajímat?

Crawlovací pasti mohou mít negativní vliv na váš crawl budget a způsobovat duplicitní obsah.

Crawlovací pasti způsobují problémy s crawl budgetem

Crawl budget je počet stránek, které je vyhledávač ochoten navštívit, když prochází váš web. V podstatě se jedná o pozornost, kterou vyhledávač vašemu webu věnuje. To mějte na paměti, když se bavíme o crawlovacích pastech, které vedou pouze na stránky s nulovou relevancí z hlediska SEO. To je přímo ukázkové plýtvání crawl budgetem. Jakmile jsou boti zaměstnáni procházením těchto nedůležitých stránek, už nemohou věnovat pozornost důležitým stránkám.

Možná se ptáte: “Ale nejsou snad vyhledávače natolik chytré, aby past odhalili?”

Vyhledávače takovou past mohou detekovat, ale není zde absolutně žádná záruka, že tomu tak bude. A navíc, aby si mohli uvědomit, že v nějaké pasti jsou, musí do ní nejdříve spadnout a chvíli se v ní pohybovat. A to už je pozdě. Výsledek je pouze zbytečné plýtvání crawl budgetu.

Crawlovací pasti způsobují problémy s duplicitním obsahem

Je důležité zmínit, že crawlovací pasti nejsou jen hrozbou pro váš crawl budget, ale jsou také častou příčinou proč web obdrží zbytečné penalizace za duplicitní obsah. Proč? Protože spoustu takových pastí vede k tomu, že máte velmi mnoho nekvalitních stránek, které jsou přístupné a indexovatelné pro vyhledávače.

Jak odhalit crawlovací past?

Zatímco někdy může být pro vyhledávač obtížné past odhalit, je to velmi jednoduché pro někoho, kdo web zná. Potřebujete pouze vědět, které URL by měly být procházeny a pak zhodnotit, zda skutečně byly procházeny.

Dávejte pozor na následující vzory v URL adresách:

Věci spojené s účtem

  • admin
  • košík
  • checkout
  • oblíbené
  • heslo
  • registrace
  • sdílení
  • wishlist

Scripty

  • cgi-bin
  • includes
  • var

Objednávaky a filtrování

  • filter
  • limit
  • order
  • sort

Vzory spojené s návštěvou

  • sessionid
  • session_id
  • SID
  • PHPSESSID

Další

  • ajax
  • cat
  • catalog
  • dir
  • mode
  • profile
  • search
  • id
  • pageid
  • page_id
  • docid
  • doc_id

Existují tři způsoby, jak na to:

  1. Spustit procházení
  2. Operátory pro rozšířené vyhledávání Google
  3. Analyzovat logovací soubory

Spustit vlastní procházení

Procházejte web s ContentKingem, projděte si svá data i seznam všech URL a podívejte se, zda naleznete nějaké URL s parametry zmíněnými výše. Seřazení dle relevance (například, že ty nejméně relevantní budete mít hned navrchu) je také efektivním způsobem, jak najít URL, které by neměly být procházeny.

Typické věci, které můžete najít:

  • URL adresy s dotazovacími parametry (obsahující ? anebo &)
    Příklady:
    http://www.priklad.com/shoes?sex=men&color=black&size=44&sale=no a http://www.priklad.com/calendar/events?&page=1&mini=2015-09&mode=week&date=2021-12-04
  • URL s opakujícími se vzorci
    Příklady:
    http://www.priklad.com/shoes/men/cat/cat/cat/cat/cat/cat/cat/cat/cat/
  • Stránky s duplicitními titulky, meta description a nadpisy.
    Vyhledat stránky s duplicitními titulky, meta description a nadpisy je dalším skvělým způsobem, jak najít potenciální crawlovací pasti.

Operátory pro rozšířené vyhledávání Google

K manuálnímu nalezení vzorců URL, které zmiňujeme výše, použijte operátory pro rozšířené vyhledávání v Googlu

Použitím operátoru site: říkáte vyhledávačům, aby vyhledával pouze na konkrétní doméně, zatímco operátor inurl: říká, že chcete najít pouze stránky dle určitého vzoru.
Příklady dotazu:

  • site:priklad.com inurl:filter
  • site:priklad.com inurl:wishlist
  • site:priklad.com inurl:favorite
  • site:priklad.com inurl:cart
  • site:priklad.com inurl:search
  • site:priklad.com inurl:sessionid

Za zmínku stojí, že můžete kombinovat také do jednoho dotazu. V tomto příkladu jsme zkombinovali všech šest URL vzorců pro amazon.com.

Analýza logovacích souborů

Dalším užitečným zdrojem pro nalezení těchto vzorců URL je projití logovacích souborů web serveru. Tyto soubory jsou záznamy všech požadavků, které na váš server přišly, zahrnující jak návštěvníky, tak vyhledávače a další boty. Vyhledejte zde požadované vzorce URL.

Nejčastější crawlovací pasti a jak se jim vyhnout

Časté crawlovací pasti, které vídáme:

  • URL s dotazovacími parametry: ty často vedou k nekonečnému množství unikátních URL.
  • Nekonečná smyčka při přesměrování: URL, které stále přesměrovávají a nikdy nepřestanou.
  • Odkazy na interní vyhledávání: odkazy na výsledky interního vyhledávání, které slouží k vyhledávání obsahu.
  • Dynamicky generovaný obsah: kde se URL využívá pro vložení dynamického obsahu.
  • Nekonečný kalendář: stránky, kde se nachází kalendář, který má odkazy na předchozí a další měsíce.
  • Špatné odkazy: odkazy, které vedou na další špatně fungující URL, které generují další a další stránky.

Níže popisujeme každou z crawlovacích pastí a jak se jí vyhnout.

URL adresy s dotazovacími parametry

Ve většině případů by neměly být URL s parametry přístupné pro vyhledávače. A to z důvodu, že mohou generovat prakticky nekonečné množství URL. Produktové filtry jsou toho skvělým důkazem. Pokud máte jen čtyři filtrovací možnosti pro čtyři filtrovací kritéria, tak vám to dává 4 096 (8^4) možných kombinací.

Proč jsou parametry zahrnovány do URL adres?

Například pro ukládání informací, jako jsou kritéria filtrování produktu, ID relací nebo informace odkud uživatel přišel.

Příklad URL s produktovými filtry:
http://www.priklad.com/shoes?sex=men&color=black&size=44&sale=no

Příklad URL s ID relace:
http://www.priklad.com?session=03D2CDBEA6B3C4NGB831

Příklad URL s informacemi, odkud uživatel přišel:
http://www.priklad.com?source=main-nav

Rada:
Vyhněte se využívání parametrů v URL adresách, jak jen můžete. Pokud je však musíte použít nebo je obecně řešit, pak se ujistěte, že nejsou přístupné pro vyhledávače. Vylučte je z nich pomocí souboru robots.txt nebo nastavením parametrů URL v Google Search Console a Bing Webmaster Tools.

Jak se vyhnout nebo vyřešit crawlovací past?

Pokud vyhledávače na vašem webu již zaindexovali URL s parametry, je třeba následovat tyto kroky ve správném pořadí:

  1. Sdělte vyhledávačům, že nechcete, aby tyto stránky byly indexovány implementací robots noindex direktivy.
  2. Dejte vyhledávačům nějaký čas, aby tyto stránky znovu prošly a zaznamenaly váš požadavek. Pokud ale nemáte trpělivost na toto čekat, vyžádejte skrytí těchto URL pomocí Google Search Console a Bing Webmaster Tools.
  3. Použitím souboru robots.txt instruujte vyhledávače, aby k těmto URL adresám nepřistupovaly. Pokud to z nějakého důvodu nejde, využijte nastavení parametrů přímo v Google Search Console a Bing Webmaster Tools, aby Google nebo Bing tyto stránky neprocházely.
  4. Navíc, pokud jsou tyto URL nalezitelné skrze odkazy, ujistěte se, že je zde přidán atribut odkazu rel=”nofollow”. Díky tomu nebudou vyhledávače tyto odkazy následovat.

Mějte na paměti, že pokud se pustíte přímo do kroku 3, vyhledávače nikdy nebudou schopny zaznamenat direktivu robots noindex (protože je na danou stránku ani nepustíte) a URL tak zůstane zaindexovaná mnohem déle.

Každopádně pokud vyhledávače ještě žádnou URL s parametry nezaindexovaly, pak stačí následovat 3 a 4 krok.

Nekonečná smyčka při přesměrování

Nekonečná smyčka je série přesměrování, která nikdy nekončí. Pokud se se smyčkou přesměrování setkáte v Google Chromu, uvidíte tohle:

Smyčka přesměrování screenshot

Smyčky mohou za to, že se návštěvníci na webu zaseknou a pravděpodobně jej i opustí. Google obvykle přestane následovat při třetím nebo čtvrtém přesměrování a to může být negativní i pro váš crawl budget. Možná se sice po nějakým čase k následování těchto přesměrování vrátí, ale to neznamená, že se nemáte takovým situacím vyvarovat.

Řětězené přesměrování

Jak tyto smyčky vznikají? Často jsou výsledkem chybné konfigurace přesměrování. Řekněme například, že všechny požadavky na URL bez koncového lomítka jsou přesměrovány pomocí 301 na verzi s koncovým lomítkem. Díky chybě ale budou také všechny požadavky na URL s lomítkem přesměrovány 301 na verzi bez lomítka.

Jak tuto crawlovací past napravit nebo se ji vyhnout?

Smyčky přesměrování můžete opravit díky správnému nastavení vaší konfigurace přesměrování. Jako v příkladu zmíněném výše - odstranit všechna přesměrování 301 pro verzi s lomítkem. Vylepšíte tím také svoji URL strukturu, která má ideálně vždy končit lomítkem.

Odkazy na interní vyhledávání

Na některých webech jsou odkazy na interní výsledky vyhledávání vytvořeny tak, že zobrazují jejich obsah, a nikoli obsahové stránky.

Odkazy na interní vyhledávání jsou nebezpečné, zejména pokud jsou odkazy generovány automaticky. To může potenciálně vytvářet tisíce nekvalitních stránek.

Uveďme si příklad: sledujete nejpopulárnější vyhledávací dotazy na svém webu a ty automaticky propojíte s obsahem, protože si myslíte, že jsou užitečné pro uživatele. Tyto stránky mohou obsahovat několik výsledků, nebo také žádný. To pak vede k vzniku málo kvalitního obsahu, který je přístupný pro vyhledávače.

Jak tuto crawlovací past napravit nebo se jí vyhnout?

Odkazování na interní výsledky vyhledávání je jen zřídkakdy lepší, než mít klasické obsahové stránky. Pokud jste ale přesvědčeni, že je výhodné ukázat návštěvníkům tyto odkazy, pak alespoň tyto stránky znepřístupněte vyhledávačům pomocí souboru robots.txt.

Příklad:

Disallow: /search/ #zablokování přístupu na stránky s výsledky interního vyhledávání
Disallow: *?s=* #zablokování přístupu na stránky s výsledky interního vyhledávání

Pokud z nějakého důvodu nemůžete využít robots.txt, můžete nastavit také parametry URL v Google Search Console a Bing Webmaster Tools.

Dynamicky generovaný obsah

V SEO je dynamicky generovaný obsah takový, který je vložený pomocí URL. Slova z URL jsou využita k naplnění stránky. To může být velmi zrádné, protože vyhledávače tak mohou najít mnoho stránek s nekvalitním obsahem.

Ilustrujme si tuto crawlovací past na příkladu. .

www.priklad.com/kalhoty/zelene/ má nadpis H1, který říká: “Kupte zelené kalhoty online v tomto obchodě”. A nabízí aktuální zelené kalhoty. To zní OK, že?

Ale co když www.priklad.com/kalhoty/ruzove/ vrací HTTP status 200 a obsahuje H1 nadpis, který říká: “Kupte růžové kalhoty online v tomto obchodě”... ale momentálně nezobrazí žádné růžové kalhoty?

Jo, to není dobré.

Toto je problém pouze v případě, že vyhledávače mohou najít typy stránek a zároveň stránky bez jakéhokoliv výsledku, vrací HTTP status 200.

Jak tuto crawlovací past napravit nebo se jí vyhnout?

Pro nápravu můžete udělat několik věcí:

  • Ujistěte se, že na tento typ stránek nevedou žádné interní odkazy.
  • Protože nad externími odkazy nemáte kontrolu, ujistěte se, že stránka, která nemá být přístupná a nezobrazuje žádný výsledek, vrací HTTP status 404.

Nekonečný kalendář

Mnoho webů obsahuje kalendáře. To je super, ale pouze v případě, že je kalendář implementován správně. Problém s nimi je, že často umisťují datum přímo do URL a zároveň vás nechají jít daleko do budoucnosti. Někdy dokonce až tisíce let.

Jak jste si jistě všimli, tahle crawlovací past je podobná URL adresám s dotazovacími parametry. Jedná se ale o tak častou chybu, že nám dává smysl pro ni vyhradit vlastní sekci.

Typická URL struktura pro kalendář bude:

  • www.priklad.com/appointment?date=2018-07 pro červenec 2018
  • www.priklad.com/appointment?date=2018-08 pro srpen 2018
  • www.priklad.com/appointment?date=2018-09pro září 2018
  • Atd.

To pak produkuje mnoho stránek, které jsou pro vyhledávače nezajímavé a proto je chcete držet stranout.

Jak tuto crawlovací past napravit nebo se jí vyhnout?

Existuje několik věcí, které můžete udělat, aby váš kalendář nebyl problémem:

  • Ujistěte se, že poskytnete dostupné pouze rozumné množství následujících měsíců.
  • Přidejte nofollow link atribut na svá tlačítka “Další měsíc” a “Předcházející měsíc”.
  • Pomocí souboru robots.txt zamezte vyhledávačům přístup k těmto URL s kalendářem.

Špatné odkazy

Jeden typ špatného odkazu může také vytvořit crawlovací past. To se často stává, když lidé používají relativní odkazy na URL a vynechávají první lomítko.

Podívejme se na příklad takového odkazu:

<a href="obchod/kategorie-x">Category X</a>

Problém je, že chybí první lomítko před “obchod”. Správně by to mělo být:

<a href="/obchod/kategoriey-x">Category X</a>

Co se stane, když použijete špatný odkaz? Prohlížeče a vyhledávače budou následovat část obchod/kategorie-x po stávající URL a to povede spíše na priklad.com/nejaka-stranka/obchod/kategorie-x/ než na zamýšlenou priklad.com/obchod/kategorie-x/. Na priklad.com/nejaka-stranka/obchod/kategorie-x/ se odkaz na tuto stránku stane priklad.com/nejaka-stranka/obchod/kategorie-x/obchod/kategorie-x/ a na ní na priklad.com/nejaka-stranka/obchod/kategorie-x/obchod/kategorie-x/obchod/kategorie-x/ a tak dál až do nekonečna.

Pokud špatně odkazovaná stránky vrací HTTP status 200 (“OK”) místo 404 (“Stránka nebyla nalezena”), pak je problém na světě. Vyhledávače se pokusí tyto stránky indexovat a to povede k mnoha nekvalitním stránkám v indexu. (Pokud špatně odkazovaná stránka vrací status 404, není to až tak velký problém.)

Tato crawlovací past může být zvláště katastrofální, pokud je zahrnuta v globální navigaci webu, jako je hlavní menu, postranní lišta nebo zápatí. Pak budou všechny stránky na webu obsahovat tento chybný odkaz (včetně té, na kterou je nesprávně odkazováno).

Jak tuto crawlovací past napravit nebo se jí vyhnout?

Existuje několik způsobů, jak na to:

  • Monitorujte svůj web ohledně špatných odkazů. Pokud budete, určitě zaznamenáte dramatický nárůst nově nalezených stránek a rychle objevíte také tento problém.
  • Ujistěte se, že stránky, které neexistují vrací HTTP status s kódem 404.

Shrnutí osvědčených postupů, jak se jim vyhnout

Osvědčené postupy pro vyhnutí se crawlovacím pastem jsou dva:

  1. Ujistěte se, že technická základna vašeho webu je v pořádku.
  2. Mějte připravené nástroje k rychlému nalezení crawlovacích pastí.

Ujistěte se, že technická základna vašeho webu je v pořádku.

Pokud budete dodržovat ohledně technické základny následující, snadno se vyhnete crawlovacím pastem vyhnete:

  • Ujistěte se, že stránky, které neexistují vrací HTTP status s kódem 404.
  • Znepřístupněte URL, které by vyhledávače neměly procházet.
  • Vložte atribut nofollow k odkazům, které by vyhledávače neměly procházet.
  • Vyhněte se dynamicky generovanému obsahu.

Mějte připravené nástroje k rychlému nalezení crawlovacích pastí.

Mít po ruce nástroje k rychlému nalezení crawlovacích pastí vám ušetří mnoho starostí. Co by měly tyto nástroje dělat? Měly by monitorovat váš web ohledně:

  • Náhlého nárůstu stránek a přesměrování.
  • Duplicitního obsahu.

Pokud jsou crawlovací pasti objeveny, chcete se o nich dozvědět rychle. Takže pro ně potřebujete upozornění. ContentKing je pro vás má připravené. Proč mu tedy nedat šanci a neujistit se, že váš web je bez těchto pastí?

Získejte zkušební verzi na 14 dní zdarma

Začněte během 20 vteřin

Vložte platnou doménu, prosím (www.priklad.cz).
  • Platební karta není potřeba
  • Není třeba žádná instalace
  • Bez závazků