Zakazujeme indexaci stránek
20.7.2009Čas od času potřebujeme říct vyhledávačům, že některé stránky se nemají indexovat, respektive zobrazovat ve výsledcích hledání. Do úvahy přicházejí v podstatě tři způsoby:
- použít meta tag
robotss hodnotounoindex, - zablokovat stránku v
robots.txt, - na všechny odkazy směřující na danou stránku navěsit atribut
nofollow.
Nofollow u odkazů
Tuto možnost uvádím pouze pro úplnost. Sice můžeme zkontrolovat odkazy na dokument z vlastního webu, nemůžeme ale již dostat pod kontrolu externí odkazy. Pokud robot vyhledávače nalezne nějaký neblokovaný externí odkaz na naši stránku, nic mu nebrání v její indexaci a posléze i zobrazení ve výsledcích.
Některé vyhledávače také mohou chápat nofollow jako pouhý
zákaz předání ranku, nikoliv jako zákaz následování při indexaci.
V neposlední řadě se stránka může teoreticky dostat do indexu i jinak,
například z toolbarů nebo přidáním do submit formuláře.
Tato metoda tedy naše původní očekávání rozhodně nesplňuje a v podstatě nemá cenu se jí dále zabývat.
Robots.txt
Soubor robots.txt nám dává do ruky poměrně silný nástroj
pro blokování přístupu vyhledávačů. Jedná se o klasický zápis, kdy za
direktivou Disallow: uvedeme cestu, která se nemá indexovat:
User-agent: *
Disallow: /kosik
Tímto vyhledávači říkáme, že má ignorovat všechny adresy
začínající slovem /kosik. Robot vyhledávače tyto stránky
vůbec nenavštíví a nezná tak jejich obsah. Pokud na ně ale vedou zpětné
odkazy, vyhledávač je zpravidla eviduje, počítá jim rank a dokonce je
může zobrazit ve výsledcích hledání.
Takto se chová například Google. Protože nezná obsah dokumentu, ukáže ve výsledcích pouze odkaz bez titulku a popisku:

V případě, že o webu existuje záznam v katalogu DMOZ, může Google přebrat titulek a popisek z něj. Odkaz se potom bude tvářit jako kterýkoli jiný výsledek hledání.
U Seznamu je situace, zdá se, jednodušší. Seznam chápe
Disallow: tak, že má stránku ignorovat úplně. Nejen že ji
tedy robot nenavštěvuje, ale dokonce ji ani nezobrazí ve výsledcích
hledání.
Meta tag robots=“noindex“
Rozšířeným omylem je, že meta tag robots s parametrem
noindex je to samé jako zákaz indexace v robots.txt.
Ve skutečnosti je mezi oběma metodami poměrně zásadní rozdíl. Pokud
totiž na stránku dáme noindex, vyhledávač stránku stáhne a
zanalyzuje (na rozdíl od zákazu v robots.txt, kdy se robot na
stránku nikdy nepodívá). Stránku pak ale nezařadí do indexu a tím pádem
se ani nezobrazí ve výsledcích hledání. To platí jak u Seznamu, tak
u Google.
<meta name="robots" content="noindex" />
Mezi chováním Google a Seznamu je však jeden podstatný rozdíl. Google
stránce stále počítá PageRank a rozděluje ho dalším odkazům stejně,
jako každá jiná klasická stránka. Tomu se dá zabránit dodatečnou
hotnotou nofollow.
<meta name="robots" content="noindex, nofollow" />
Naproti tomu Seznam sice také následuje odkazy na stránce, odkazům ale
nikdy nepředává žádný rank. A to bez ohledu na nastavení hodnoty
follow či nofollow.
V mnoha situacích tak může být výhodnější upřednostnit meta tag
před soborem robots.txt. Google bude i odkazům na stránkách se
zakázanou indexací počítat rank a Seznamu pomůžete nalézt některé
dokumenty na webu rychleji.
Další informace
- Matt Cutts Interviewed by Eric Enge on September 24, 2007
- Bot Herding: The Ultimate Tool for PageRank Sculpting

[1] Pavel Šindelka 21.7.2009, 10:32
Možná se pletu, ale Google podle mého už pěkných pár měsíců nofollow u odkazů ignoruje (nedávno kolem toho byl poměrně velký humbuk).
Informace „Google stránce stále počítá PageRank a rozděluje ho dalším odkazům stejně, jako každá jiná klasická stránka. Tomu se dá zabránit dodatečnou hotnotou nofollow.“ je tedy nepravdivá.
[2] Jan Tichý 21.7.2009, 10:54
[1] Google atribut rel=„nofollow“ rozhodně i nadále zohledňuje. Humbuk, který nedávno proběhl, se týká zjištění, že Google rozpočítává rank i na tyto odkazy, jenom jej nepředává dál. Zatímco donedávna se předpokládalo, že na tyto odkazy rank ani nerozpočítává, jako by tam vůbec nebyly. Blíže viz například článek od Marka Prokopa.
[3] Pepa 21.7.2009, 20:59
A na co zakazovat pristup a indexaci robotum ? Nejsem tak sam proti sobe ?
[4] Martin Šimko 22.7.2009, 09:47
[3] Pepa: Některé stránky z principu prostě nechci indexovat. Například logovací stránku do administrace, nebo nějaké „privátní“ stránky, testovací stránky apod. Potom se tyto postupy hodí.
[5] Michal Franěk 22.7.2009, 10:47
[3]Pepa: Nechci také indexovat stránky, které nemají pro jiné uživatele informační hodnotu. Např. „košík“ v e-shopech. Jeho obsah není vhodné zobrazovat ve vyhledávačích.
[6] Homer 22.7.2009, 22:33
[3]To Pepa – typickým příkladem stránek, u kterých je vhodné zakázat indexaci jsou např.„Zásady ochrany osobních údajů“ atd.
[7] Test 23.7.2009, 10:16
Pokud se tedy zakaze indexace a po nejake dobe si to autor rozmysli a povoli indexaci co se bude dit? chodi robot navstevovat pravidelne stranku na ktere „ho porad vyhazuji“?
[8] Lukáš Borovksý 2.11.2009, 18:36
google si neuklada zadny seznam zakazanych stranek – jen je prehlizi. Opravte me jestli se pletu, mam za to ze jsem to nekde cetl..