Soubor sitemap XML ve zkratce

Soubor sitemap XML je seznam všech stránek na webu. Vyhledávače mají díky němu přehled o veškerém dostupném obsahu. Je důležitý především pro velké weby (500 a více stránek).

Při vytváření souboru sitemap XML se držte následijících osvědčených postupů:

  • Soubor by měl být neustále synchronizovaný s aktuálním obsahem webu.
  • Měl by obsahovat pouze indexovatelné stránky.
  • Měl by být dostupný ze soubotu robots.txt.
  • Jeden soubor by neměl obsahovat více než 50 000 URL.
  • Velikost nezkomprimovaného souboru by neměla přesáhnout 50 MB.
  • Nedělejte si příliš velké starosti s tagy lastmod, priority a changefreq.

Co je sitemap XML?

Soubor sitemap XML je dokument určený pro vyhledávače, který obsahuje seznam všech stránek webu. Můžeme ho přirovnat například k telefonnímu seznamu: říká vyhledávačům, jaký obsah na webu najdou a jak se k němu dostat. Kromě toho poskytuje ještě další informace - kdy byl obsah naposledy aktualizován a jak je důležitý.

Pro vyhledávače je nesmírně důležitý, protože jim dává jedinečný přehled o veškerém dostupném obsahu. Slouží jim jako výchozí bod při prvním průzkumu webu i jako vodítko při objevování nových stránek.

Existuje rozdíl mezi souborem sitemap XML a “běžnými soubory sitemap” (jinak také “soubory sitemap HTML”). Posledně jmenované pomáhají návštěvníkům objevit obsah, zatímco sitemap XML je soubor určený výhradně pro vyhledávače.

Proč byste se měli zajímat o soubor sitemap XML?

Soubor sitemap XML pomáhá vyhledávačům posoudit současný obsah vašeho webu a upozorňuje je na nový nebo aktualizovaný obsah. Měli byste ho používat vždy, kdy je to možné. U velkých webů (500 a více stránek) se stává naprostou nezbytností.

Jak vypadá soubor sitemap XML?

Soubor je určený pro vyhledávače a je tedy napsaný v jazyku, kterému počítače snadno porozumí - XML. XML je ale naštěstí čitelné i pro lidi. Ukážeme si to na příkladu:

<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>https://www.contentkingapp.cz/</loc> <lastmod>2017-06-14T19:55:25+02:00</lastmod> </url> <url> <loc>https://www.contentkingapp.cz/blog/</loc> <lastmod>2016-06-24T10:23:20+02:00</lastmod> </url> </urlset>

Pro lepší porozumění si nyní vysvětlíme každou část zvlášť.

Hlavička XML

<?xml version="1.0" encoding="UTF-8"?>

Hlavička říká, že obsah dokumentu odpovídá verzi 1.0 XML standardu a že bylo použito kódování znaků UTF-8. Informuje tedy vyhledávače o tom, co můžou od souboru čekat.

Urlset

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

Tag urlset v sobě obsahuje všechna URL webu a říká, která verze XML standardu byla použita. Tag je uzavřen na konci dokumentu:

</urlset>

Jednotlivá URL

<url> <loc>https://www.contentkingapp.cz/</loc> <lastmod>2017-06-14T19:55:25+02:00</lastmod> </url>

Nyní se dostáváme k hlavní části - url tagu, který ohraničuje každé URL. Tato část musí obsahovat minimálně loc tag (zkratka od location). Jeho hodnotou by mělo být kompletní URL stránky včetně protokolu (např. “https://”).

Kromě toho může tato část obsahovat ještě další, volitelné, značky:

  • lastmod: datum, kdy došlo k poslední změně stránky (je ve formátu “W3C”).
  • priority: priorita URL - jde o prioritu v rámci webu na stupnici 0,0 až 1,0.
  • changefreq: frekvence, s jakou by mělo docházet ke změnám stránky. Možné hodnoty jsou always (neustále), hourly (každou hodinu), daily (každý den), weekly (každý týden), monthly (každý měsíc), early (brzy) a never (nikdy).

Kam umístit soubor sitemap XML?

Tak jako každá stránka webu i sitemap XML má své vlastní URL. Obvykle je to /sitemap.xml. Je dobré držet se této konvence. Pomůžete tak vyhledávačům soubor objevit.

Pokud to z nějakého důvodu není možné, můžete zvolit i jiné umístění nebo název souboru. Je ovšem třeba to uvést v souboru robots.txt pomocí direktivy Sitemap:

Sitemap: http://www.priklad.cz/alternativniumisteni/alternativninazev.xml

Existují nějaké limity pro soubor sitemap XML?

Je dobré mít na paměti, že:

  • Soubor by neměl obsahovat více než 50 000 URL.
  • Velikost nezkomprimovaného souboru by neměla přesáhnout 50 MB.

Pokud váš soubor sitemap XML přesáhne tyto limity, je nutné ho rozdělit na několik souborů a vytvořit sitemap index.

Co je sitemap index?

Vždy, když překročíte limity souboru sitemap XML, musíte ho rozdělit do více souborů a uvést je všechny v souboru sitemap index. Jde o samostatný soubor XML obsahující odkazy na všechny soubory sitemap XML.

Ukážeme si to na příkladu:

<?xml version="1.0" encoding="UTF-8"?> <sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <sitemap> <loc>http://www.priklad.cz/sitemap1.xml.gz</loc> <lastmod>2004-10-01T18:23:17+00:00</lastmod> </sitemap> <sitemap> <loc>http://www.priklad.cz/sitemap2.xml.gz</loc> <lastmod>2005-01-01</lastmod> </sitemap> </sitemapindex>

Soubor sitemap index obsahuje dva soubory sitemap XML: sitemap1.xml.gz a sitemap2.xml.gz. Nyní podrobně rozebereme i tento soubor:

Hlavička XML

<?xml version="1.0" encoding="UTF-8"?>

Platí tady totéž, co u souboru sitemap XML, který jsme si popsali před chvílí: jde o informaci, že obsah dokumentu odpovídá verzi 1.0 XML standardu a že bylo použito kódování znaků UTF-8.

Sitemapindex

<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

Místo tagu urlset vidíme sitemapindex. Tento tag obsahuje adresy všech souborů sitemap a říká, která verze XML standardu byla použita. Stejně jako urlset i tento tag se uzavírá na konci dokumentu.

</sitemapindex>

Jednotlivé soubory sitemap

<sitemap> <loc>http://www.priklad.cz/sitemap1.xml.gz</loc> <lastmod>2004-10-01T18:23:17+00:00</lastmod> </sitemap>

Konečně se dostáváme k jedotlivým souborům sitemap. Stejně jako každý url tag i sitemap tagy musí obsahovat minimálně značku loc a v ní kompletní URL souboru sitemap.

Sitemap tag může obsahovat ještě značku lastmode, která říká, kdy proběhla poslední změna souboru. Opět je to uvedeno ve formátu “W3C”.

Kam umístit soubor sitemap index?

I tady existuje konvence, kam umístit a jak pojmenovat soubor sitemap index: /sitemap_index.xml. Opět platí, že můžete zvolit jiné umístění nebo jiný název, je ale třeba to uvést v souboru robots.txt:

Sitemap: http://www.priklad.cz/alternativniumisteni/alternativninazev.xml

Osvědčené postupy pro soubor sitemap XML

Při vytváření souboru sitemap XML byste měli dodržovat následující postupy:

Soubor sitemap XML musí být aktuální

Soubor by měl vždy obsahovat aktuální data. Pokud z webu odstraníte nějakou stránku, musíte ji odstranit i ze souboru sitemap. Pokud používáte lastmod tag, upravte jeho hodnotu, kdykoliv dojde ke změně stránky.

Soubor by měl obsahovat pouze indexovatelné stránky

V souboru by měly být zahrnuty pouze indexovatelné stránky. To znamená žádná přesměrování (např. statusový kód 301) ani neexistující stránky (např. 404).

Stránky musí být přístupné pro roboty - v souboru robots.txt nesmí být direktiva, která to zakazuje, a nesmí existovat meta tag robots, kanonické URL nebo x-robots-tag zakazující indexaci stránek.

Používejte standardní umístění i název souboru

Pokud je to možné, používejte běžné umístění i název souborů sitemap XML (/sitemap.xml) a sitemap index (/sitemap_index.xml). Pomůžete tak vyhledávačům snadno soubory nalézt.

Uveďte sitemap XML v souboru robots.txt

Pokud nedodržujete zásady pro umístění a název souborů sitemap XML a sitemap index, je nutné je uvést v souboru robots.txt. Nicméně i pokud tyto zásady dodržujete, je lepší je tam uvádět. Zajistíte tak, že je vyhledávače najdou.

Nepřikládejte příliš velkou váhu značkám lastmod, priority a changefreq

Pro každé URL je možné vytvořit tagy lastmod, priority a changefreq, není to ovšem nezbytné. Ničemu to neuškodí a existuje šance, že vyhledávače tyto informace využijí, obvykle jim ale moc pozornosti nevěnují.

Dodržujte limity pro soubory sitemap XML

Ujistěte se, že žádný z vašich souborů sitemap XML neobsahuje více než 50 000 URL a že jeho velikost nepřesahuje 50 MB. Pokud některý z těchto limitů překročíte, měli byste soubor rozdělit do několika menších a zahrnout je do souboru sitemap index.

Často kladené otázky ohledně souboru sitemap XML

  1. Co znamená přípona .gz?

1. Co znamená přípona .gz?

Přípona .gz se přidává k názvu zkomprimovaného souboru (jde o gzip kompresi). Soubory obsahující velké množství URL jsou obvykle hodně velké. Aby nezabíraly příliš mnoho kapacity disku a zároveň se snížil čas přenosu, používá se komprese.

Získejte zkušební verzi na 14 dní zdarma

Začněte během 20 vteřin

Vložte platnou doménu, prosím (www.priklad.cz).
  • Platební karta není potřeba
  • Není třeba žádná instalace
  • Bez závazků