Přejít k obsahu  Přejít k hlavnímu menu

Firemní weblog poradenské společnosti H1.cz

Zobrazit všechny články
Zpět

Zakazujeme indexaci stránek

Čas od času potřebujeme říct vyhledávačům, že některé stránky se nemají indexovat, respektive zobrazovat ve výsledcích hledání. Do úvahy přicházejí v podstatě tři způsoby: * použít meta tag robots s hodnotou noindex, * zablokovat stránku v robots.txt, * na všechny odkazy směřující na danou stránku navěsit atribut nofollow.

Nofollow u odkazů

Tuto možnost uvádím pouze pro úplnost. Sice můžeme zkontrolovat odkazy na dokument z vlastního webu, nemůžeme ale již dostat pod kontrolu externí odkazy. Pokud robot vyhledávače nalezne nějaký neblokovaný externí odkaz na naši stránku, nic mu nebrání v její indexaci a posléze i zobrazení ve výsledcích. Některé vyhledávače také mohou chápat nofollow jako pouhý zákaz předání ranku, nikoliv jako zákaz následování při indexaci. V neposlední řadě se stránka může teoreticky dostat do indexu i jinak, například z toolbarů nebo přidáním do submit formuláře. Tato metoda tedy naše původní očekávání rozhodně nesplňuje a v podstatě nemá cenu se jí dále zabývat.

Robots.txt

Soubor robots.txt nám dává do ruky poměrně silný nástroj pro blokování přístupu vyhledávačů. Jedná se o klasický zápis, kdy za direktivou Disallow: uvedeme cestu, která se nemá indexovat: /---code User-agent: * Disallow: /kosik \--- Tímto vyhledávači říkáme, že má ignorovat všechny adresy začínající slovem /kosik. Robot vyhledávače tyto stránky vůbec nenavštíví a nezná tak jejich obsah. Pokud na ně ale vedou zpětné odkazy, vyhledávač je zpravidla eviduje, počítá jim rank a dokonce je může zobrazit ve výsledcích hledání. Takto se chová například Google. Protože nezná obsah dokumentu, ukáže ve výsledcích pouze odkaz bez titulku a popisku: Výsledek stránky zakázané v robots.txtV případě, že o webu existuje záznam v katalogu DMOZ, může Google přebrat titulek a popisek z něj. Odkaz se potom bude tvářit jako kterýkoli jiný výsledek hledání. U Seznamu je situace, zdá se, jednodušší. Seznam chápe Disallow: tak, že má stránku ignorovat úplně. Nejen že ji tedy robot nenavštěvuje, ale dokonce ji ani nezobrazí ve výsledcích hledání.

Meta tag robots=“noindex“

Rozšířeným omylem je, že meta tag robots s parametrem noindex je to samé jako zákaz indexace v robots.txt. Ve skutečnosti je mezi oběma metodami poměrně zásadní rozdíl. Pokud totiž na stránku dáme noindex, vyhledávač stránku stáhne a zanalyzuje (na rozdíl od zákazu v robots.txt, kdy se robot na stránku nikdy nepodívá). Stránku pak ale nezařadí do indexu a tím pádem se ani nezobrazí ve výsledcích hledání. To platí jak u Seznamu, tak u Google. /---code \--- Mezi chováním Google a Seznamu je však jeden podstatný rozdíl. Google stránce stále počítá PageRank a rozděluje ho dalším odkazům stejně, jako každá jiná klasická stránka. Tomu se dá zabránit dodatečnou hotnotou nofollow. /---code\--- Naproti tomu Seznam sice také následuje odkazy na stránce, odkazům ale nikdy nepředává žádný rank. A to bez ohledu na nastavení hodnoty follow či nofollow. V mnoha situacích tak může být výhodnější upřednostnit meta tag před soborem robots.txt. Google bude i odkazům na stránkách se zakázanou indexací počítat rank a Seznamu pomůžete nalézt některé dokumenty na webu rychleji.

Další informace

* Matt Cutts Interviewed by Eric Enge on September 24, 2007 * Bot Herding: The Ultimate Tool for PageRank Sculpting

Autorem článku je Petr Fidler.

  • Pavel Šindelka
    21. 07. 2009 / 10:32

    Možná se pletu, ale Google podle mého už pěkných pár měsíců nofollow u odkazů ignoruje (nedávno kolem toho byl poměrně velký humbuk).

    Informace „Google stránce stále počítá PageRank a rozděluje ho dalším odkazům stejně, jako každá jiná klasická stránka. Tomu se dá zabránit dodatečnou hotnotou nofollow.“ je tedy nepravdivá.

  • Jan Tichý
    21. 07. 2009 / 10:54

    [1] Google atribut rel=„nofollow“ rozhodně i nadále zohledňuje. Humbuk, který nedávno proběhl, se týká zjištění, že Google rozpočítává rank i na tyto odkazy, jenom jej nepředává dál. Zatímco donedávna se předpokládalo, že na tyto odkazy rank ani nerozpočítává, jako by tam vůbec nebyly. Blíže viz například článek od Marka Prokopa.

  • Pepa
    21. 07. 2009 / 20:59

    A na co zakazovat pristup a indexaci robotum ? Nejsem tak sam proti sobe ?

  • Martin Šimko
    22. 07. 2009 / 09:47

    [3] Pepa: Některé stránky z principu prostě nechci indexovat. Například logovací stránku do administrace, nebo nějaké „privátní“ stránky, testovací stránky apod. Potom se tyto postupy hodí.

  • Michal Franěk
    22. 07. 2009 / 10:47

    [3]Pepa: Nechci také indexovat stránky, které nemají pro jiné uživatele informační hodnotu. Např. „košík“ v e-shopech. Jeho obsah není vhodné zobrazovat ve vyhledávačích.

  • Homer
    22. 07. 2009 / 22:33

    [3]To Pepa – typickým příkladem stránek, u kterých je vhodné zakázat indexaci jsou např.„Zásady ochrany osobních údajů“ atd.

  • Test
    23. 07. 2009 / 10:16

    Pokud se tedy zakaze indexace a po nejake dobe si to autor rozmysli a povoli indexaci co se bude dit? chodi robot navstevovat pravidelne stranku na ktere „ho porad vyhazuji“?

  • Lukáš Borovksý
    02. 11. 2009 / 18:36

    google si neuklada zadny seznam zakazanych stranek – jen je prehlizi. Opravte me jestli se pletu, mam za to ze jsem to nekde cetl..

RSS feed komentářů k tomuto článku
RSS feed komentářů ke všem článkům



(nebude zveřejněn)



Položky označené * jsou povinné