NaH1

Zakazujeme indexaci stránek

20.7.2009

Čas od času potřebujeme říct vyhledávačům, že některé stránky se nemají indexovat, respektive zobrazovat ve výsledcích hledání. Do úvahy přicházejí v podstatě tři způsoby:

Nofollow u odkazů

Tuto možnost uvádím pouze pro úplnost. Sice můžeme zkontrolovat odkazy na dokument z vlastního webu, nemůžeme ale již dostat pod kontrolu externí odkazy. Pokud robot vyhledávače nalezne nějaký neblokovaný externí odkaz na naši stránku, nic mu nebrání v její indexaci a posléze i zobrazení ve výsledcích.

Některé vyhledávače také mohou chápat nofollow jako pouhý zákaz předání ranku, nikoliv jako zákaz následování při indexaci. V neposlední řadě se stránka může teoreticky dostat do indexu i jinak, například z toolbarů nebo přidáním do submit formuláře.

Tato metoda tedy naše původní očekávání rozhodně nesplňuje a v podstatě nemá cenu se jí dále zabývat.

Robots.txt

Soubor robots.txt nám dává do ruky poměrně silný nástroj pro blokování přístupu vyhledávačů. Jedná se o klasický zápis, kdy za direktivou Disallow: uvedeme cestu, která se nemá indexovat:

User-agent: *
Disallow: /kosik

Tímto vyhledávači říkáme, že má ignorovat všechny adresy začínající slovem /kosik. Robot vyhledávače tyto stránky vůbec nenavštíví a nezná tak jejich obsah. Pokud na ně ale vedou zpětné odkazy, vyhledávač je zpravidla eviduje, počítá jim rank a dokonce je může zobrazit ve výsledcích hledání.

Takto se chová například Google. Protože nezná obsah dokumentu, ukáže ve výsledcích pouze odkaz bez titulku a popisku:

Výsledek stránky zakázané v robots.txt

V případě, že o webu existuje záznam v katalogu DMOZ, může Google přebrat titulek a popisek z něj. Odkaz se potom bude tvářit jako kterýkoli jiný výsledek hledání.

U Seznamu je situace, zdá se, jednodušší. Seznam chápe Disallow: tak, že má stránku ignorovat úplně. Nejen že ji tedy robot nenavštěvuje, ale dokonce ji ani nezobrazí ve výsledcích hledání.

Meta tag robots=“noindex“

Rozšířeným omylem je, že meta tag robots s parametrem noindex je to samé jako zákaz indexace v robots.txt. Ve skutečnosti je mezi oběma metodami poměrně zásadní rozdíl. Pokud totiž na stránku dáme noindex, vyhledávač stránku stáhne a zanalyzuje (na rozdíl od zákazu v robots.txt, kdy se robot na stránku nikdy nepodívá). Stránku pak ale nezařadí do indexu a tím pádem se ani nezobrazí ve výsledcích hledání. To platí jak u Seznamu, tak u Google.

<meta name="robots" content="noindex" />

Mezi chováním Google a Seznamu je však jeden podstatný rozdíl. Google stránce stále počítá PageRank a rozděluje ho dalším odkazům stejně, jako každá jiná klasická stránka. Tomu se dá zabránit dodatečnou hotnotou nofollow.

<meta name="robots" content="noindex, nofollow" />

Naproti tomu Seznam sice také následuje odkazy na stránce, odkazům ale nikdy nepředává žádný rank. A to bez ohledu na nastavení hodnoty follow či nofollow.

V mnoha situacích tak může být výhodnější upřednostnit meta tag před soborem robots.txt. Google bude i odkazům na stránkách se zakázanou indexací počítat rank a Seznamu pomůžete nalézt některé dokumenty na webu rychleji.

Další informace

Komentáře (8)

Vložit komentář »

  1. [1] Pavel Šindelka 21.7.2009, 10:32

    Možná se pletu, ale Google podle mého už pěkných pár měsíců nofollow u odkazů ignoruje (nedávno kolem toho byl poměrně velký humbuk).

    Informace „Google stránce stále počítá PageRank a rozděluje ho dalším odkazům stejně, jako každá jiná klasická stránka. Tomu se dá zabránit dodatečnou hotnotou nofollow.“ je tedy nepravdivá.

  2. [2] Jan Tichý 21.7.2009, 10:54

    [1] Google atribut rel=„nofollow“ rozhodně i nadále zohledňuje. Humbuk, který nedávno proběhl, se týká zjištění, že Google rozpočítává rank i na tyto odkazy, jenom jej nepředává dál. Zatímco donedávna se předpokládalo, že na tyto odkazy rank ani nerozpočítává, jako by tam vůbec nebyly. Blíže viz například článek od Marka Prokopa.

  3. [3] Pepa 21.7.2009, 20:59

    A na co zakazovat pristup a indexaci robotum ? Nejsem tak sam proti sobe ?

  4. [4] Martin Šimko 22.7.2009, 09:47

    [3] Pepa: Některé stránky z principu prostě nechci indexovat. Například logovací stránku do administrace, nebo nějaké „privátní“ stránky, testovací stránky apod. Potom se tyto postupy hodí.

  5. [5] Michal Franěk 22.7.2009, 10:47

    [3]Pepa: Nechci také indexovat stránky, které nemají pro jiné uživatele informační hodnotu. Např. „košík“ v e-shopech. Jeho obsah není vhodné zobrazovat ve vyhledávačích.

  6. [6] Homer 22.7.2009, 22:33

    [3]To Pepa – typickým příkladem stránek, u kterých je vhodné zakázat indexaci jsou např.„Zásady ochrany osobních údajů“ atd.

  7. [7] Test 23.7.2009, 10:16

    Pokud se tedy zakaze indexace a po nejake dobe si to autor rozmysli a povoli indexaci co se bude dit? chodi robot navstevovat pravidelne stranku na ktere „ho porad vyhazuji“?

  8. [8] Lukáš Borovksý 2.11.2009, 18:36

    google si neuklada zadny seznam zakazanych stranek – jen je prehlizi. Opravte me jestli se pletu, mam za to ze jsem to nekde cetl..

Vložit komentář


NaH1 - Firemní weblog poradenské společnosti H1.cz

Logo H1.cz