Čas od času potřebujeme říct vyhledávačům, že některé stránky se
nemají indexovat, respektive zobrazovat ve výsledcích hledání. Do úvahy
přicházejí v podstatě tři způsoby: * použít meta tag
robots
s hodnotou noindex
, * zablokovat stránku v
robots.txt
, * na všechny odkazy směřující na danou stránku
navěsit atribut nofollow
.
Nofollow u odkazů
Tuto možnost uvádím pouze pro úplnost. Sice můžeme zkontrolovat odkazy
na dokument z vlastního webu, nemůžeme ale již dostat pod kontrolu externí
odkazy. Pokud robot vyhledávače nalezne nějaký neblokovaný externí odkaz
na naši stránku, nic mu nebrání v její indexaci a posléze i zobrazení
ve výsledcích. Některé vyhledávače také mohou chápat
nofollow
jako pouhý zákaz předání ranku, nikoliv jako zákaz
následování při indexaci. V neposlední řadě se stránka může
teoreticky dostat do indexu i jinak, například z toolbarů nebo přidáním
do submit formuláře. Tato metoda tedy naše původní očekávání rozhodně
nesplňuje a v podstatě nemá cenu se jí dále zabývat.
Robots.txt
Soubor robots.txt
nám dává do ruky poměrně silný nástroj
pro blokování přístupu vyhledávačů. Jedná se o klasický zápis, kdy za
direktivou Disallow:
uvedeme cestu, která se nemá indexovat:
/---code User-agent: * Disallow: /kosik \--- Tímto vyhledávači říkáme, že
má ignorovat všechny adresy začínající slovem /kosik
. Robot
vyhledávače tyto stránky vůbec nenavštíví a nezná tak jejich obsah.
Pokud na ně ale vedou zpětné odkazy, vyhledávač je zpravidla eviduje,
počítá jim rank a dokonce je může zobrazit ve výsledcích hledání. Takto
se chová například Google. Protože nezná obsah dokumentu, ukáže ve
výsledcích pouze odkaz bez titulku a popisku:
V případě, že o webu existuje záznam v katalogu DMOZ, může Google
přebrat titulek a popisek z něj. Odkaz se potom bude tvářit jako kterýkoli
jiný výsledek hledání. U Seznamu je situace, zdá se, jednodušší. Seznam
chápe Disallow:
tak, že má stránku ignorovat úplně. Nejen že
ji tedy robot nenavštěvuje, ale dokonce ji ani nezobrazí ve výsledcích
hledání.
Meta tag robots=“noindex“
Rozšířeným omylem je, že meta tag robots
s parametrem
noindex
je to samé jako zákaz indexace v robots.txt
.
Ve skutečnosti je mezi oběma metodami poměrně zásadní rozdíl. Pokud
totiž na stránku dáme noindex
, vyhledávač stránku stáhne a
zanalyzuje (na rozdíl od zákazu v robots.txt
, kdy se robot na
stránku nikdy nepodívá). Stránku pak ale nezařadí do indexu a tím pádem
se ani nezobrazí ve výsledcích hledání. To platí jak u Seznamu, tak
u Google. /---code \--- Mezi chováním Google a Seznamu je však jeden
podstatný rozdíl. Google stránce stále počítá PageRank a rozděluje ho
dalším odkazům stejně, jako každá jiná klasická stránka. Tomu se dá
zabránit dodatečnou hotnotou nofollow
. /---code\--- Naproti tomu
Seznam sice také následuje odkazy na stránce, odkazům ale nikdy nepředává
žádný rank. A to bez ohledu na nastavení hodnoty follow
či
nofollow
. V mnoha situacích tak může být výhodnější
upřednostnit meta tag před soborem robots.txt
. Google bude
i odkazům na stránkách se zakázanou indexací počítat rank a Seznamu
pomůžete nalézt některé dokumenty na webu rychleji.
Další informace
* Matt Cutts
Interviewed by Eric Enge on September 24, 2007 * Bot Herding: The
Ultimate Tool for PageRank Sculpting
Autorem článku je Petr Fidler.
Možná se pletu, ale Google podle mého už pěkných pár měsíců nofollow u odkazů ignoruje (nedávno kolem toho byl poměrně velký humbuk).
Informace „Google stránce stále počítá PageRank a rozděluje ho dalším odkazům stejně, jako každá jiná klasická stránka. Tomu se dá zabránit dodatečnou hotnotou nofollow.“ je tedy nepravdivá.
[1] Google atribut rel=„nofollow“ rozhodně i nadále zohledňuje. Humbuk, který nedávno proběhl, se týká zjištění, že Google rozpočítává rank i na tyto odkazy, jenom jej nepředává dál. Zatímco donedávna se předpokládalo, že na tyto odkazy rank ani nerozpočítává, jako by tam vůbec nebyly. Blíže viz například článek od Marka Prokopa.
A na co zakazovat pristup a indexaci robotum ? Nejsem tak sam proti sobe ?
[3] Pepa: Některé stránky z principu prostě nechci indexovat. Například logovací stránku do administrace, nebo nějaké „privátní“ stránky, testovací stránky apod. Potom se tyto postupy hodí.
[3]Pepa: Nechci také indexovat stránky, které nemají pro jiné uživatele informační hodnotu. Např. „košík“ v e-shopech. Jeho obsah není vhodné zobrazovat ve vyhledávačích.
[3]To Pepa – typickým příkladem stránek, u kterých je vhodné zakázat indexaci jsou např.„Zásady ochrany osobních údajů“ atd.
Pokud se tedy zakaze indexace a po nejake dobe si to autor rozmysli a povoli indexaci co se bude dit? chodi robot navstevovat pravidelne stranku na ktere „ho porad vyhazuji“?
google si neuklada zadny seznam zakazanych stranek – jen je prehlizi. Opravte me jestli se pletu, mam za to ze jsem to nekde cetl..