Už se vám to někdy stalo? Seznam.cz občas zaindexuje některou stránku
i s parametry, které negativně ovlivní uživatelský dojem nebo analytiku.
Tento problém může nepříznivě ovlivnit i výslednou pozici dané stránky
ve vyhledávači.
Typicky nastává některá ze 2 nechtěných situací:
- Ovlivnění obsahu vstupní
stránky – Seznam.cz zaindexuje například 3. stránku kategorie
e-shopu, nebo jinak parametricky omezený původní obsah stránky. Ve výpisu
výsledků hledání (SERP) se pak objeví např.
htttp://www.eshop.cz/kategorie?page=3&order=desc.
- Ovlivnění analytiky –
Ke znehodnocení měření dochází, když Seznam.cz do svého indexu zahrne
stránku s UTM parametry – např.
htttp://www.web.cz/?utm_source=azet.sk&medium=refferal&campaign=katalog&keyword=praca.
Ovlivnění obsahu vstupní stránky
Nekompletní zaindexování obsahu vstupní stránky ovlivňuje její
celkovou kvalitu a relevanci z pohledu vyhledávačů. Web se nejenom zobrazuje
na horších pozicích, ale uživatel navíc z vyhledávačů přichází na
x-tou stránku výpisu. Což je – typicky v případě e-shopů –
matoucí. Zákazníkovi tak unikají ty nejzajímavější produkty, které
bývají na prvních stránkách kategorií. A to nechcete ani vy, ani on.
Řešením je canonical
Popisovaný problém je typický pro weby, které používají stránkování
nebo parametry pro změny obsahu a nejsou tzv. kanonizovány = nejsou označeny
meta tagem canonical. Canonical by správně měl být na všech stránkách,
u kterých dochází ke stránkování či k jinému parametrickému
omezování obsahu (např. změnám pořadí, výpisu, filtrování).
Tag canonical robotům říká: „Na uvedené stránce je správný,
kompletní a původní obsah, který doporučujeme zaindexovat, protože je ze
všech variant nejvhodnější.“ Z pohledu SEO je stránkám uvedeným
v tagu canonical předávána hodnota (rank) stránek, které mají danou
stránku v tagu canonical uvedenou.
Tag s označením canonical se umísťuje do části kódu
<head> a jeho tvar je <link rel=„canonical“
href=„https://blog.example.com/dresses/green-dresses-are-awesome“/>,
kdy odkazem je vždy stránka, která obsahuje kompletní a původní obsah. Je
důležité používat absolutní adresu a nikoliv pouze např.
/priklad.html.
Canonical používáme v situacích, kdy se na webu nachází duplicitní
obsah na různých URL. Zvolíme pak vždy 1 ze stránek s duplicitním
obsahem, kterou uvedeme v tomto tagu.
Veškeré informace o implementaci canonical a situacích, kdy je vhodné jej
použít, najdete v nápovědě Search Console Google.
A co pagination?
Tagy <link rel=“next“ /> a <link rel=“prev“
/> bohužel Seznam.cz nebere v úvahu, přesto je doporučujeme
používat pro účely robota Google. Více informací o označení
stránkování najdete na stránce Označení stránkovaného obsahu nápovědy Google Search
Console.
Můžeme použít i noindex
Jinou možností, jak těmto problémům předejít, je u všech
„problémových“ stránek (stránky 2 a více, filtrování, řazení atd.)
použít meta informaci pro roboty <meta name=„robots“
content=„noindex,follow“>.
Takto významně ulehčíme robotům v indexaci webu. Výhodou je, že se
pak zaměří na důležitější URL stránky webu, které se tak stanou
silnějšími. Pokud však máte hodně odkazovaných stránek s parametry, je
nevýhodou, že noindex oproti canonical nepředává hodnocení.
Ovlivnění analytiky
Jestliže vám Seznam.cz zaindexuje stránku s UTM parametry, dost
pravděpodobně bude v měřícím nástroji (Google Analytics apod.) padat
návštěvnost k jinému zdroji/médiu/kampani/klíčovému slovu. U Seznamu
tedy nebudete mít kompletní data a u jiného zdroje naopak data navíc. Pokud
je takto zaindexována například úvodní nebo jiná hodně navštěvovaná
stránka, vaše analytika může být silně znehodnocená.
Očištění URL od nechtěných parametrů
Prvním řešením je systémové čištění URL od UTM a dalších
parametrů, které v ní nechcete uvádět. Jde o čistší řešení, které
ale v mnoha případech nedosáhne kýženého výsledku, tedy přeindexování
stránky do stavu bez parametrů.
K technické implementaci existují na internetu různé návody.
Například článek Fresh URL: Clean URLs at
Last nebo kanonizace UTM pro Nette.
Změna robots.txt
Robots.txt svým účelem neslouží k zákazu indexace
stránek, i přesto jej odborníci z technické podpory
Seznam.cz doporučují k zamezení indexace UTM parametrů ve
vyhledávači Seznam.cz. Přestože funguje, doporučuji tuto techniku použít
až jako poslední možnost.
Robotům vyhledávače Seznam.cz (SeznamBotovi) je třeba říci, že
všechny stránky s parametry UTM nemá procházet. K tomu je možné použít
tento regulární výraz:
User-agent: SeznamBot
Disallow: /*\?utm
Nebo si jako základ můžete stáhnout námi upravený robots.txt, který zamezuje
Seznamu procházení stránek s UTM parametry.
Problémem ale je, že jakmile na vás bude někdo odkazovat s UTM
parametry, robot Seznamu přicházející z tohoto odkazu nebude danou stránku
procházet. Jak to bude se ztrátou ranků, si pak můžeme už jen odvodit.
Úprava analytiky
Můžete se také rozhodnout, že tento problém nebudete řešit na straně
indexace Seznamu, ale měření si upravíte na své straně – v měřícím
nástroji. Toto je vhodné jen, pokud přes daný zdroj/médium nepřichází a
pravděpodobně nebude přicházet v podstatě žádná návštěvnost.
V případě, že pro měření používáte Google Analytics, doporučuji
připravit si 2 vlastní pokročilé filtry:
- Změnit médium zapsané
v indexaci na organic
- Změnit zdroj zapsaný
v indexaci na seznam.cz (nebo seznam – podle toho jakou variantu
používáte)
Pokud jsou přes
zaindexované UTM předávány i další hodnoty, doporučuji je rovněž
přepsat nebo odstranit.
Jedná se o nejpohodlnější řešení, u kterého však nebudete mít
úplně čistou indexaci. Lze jej tedy použít jen u „mrtvých“
kanálů.
Jak najdu špatně zaindexované stránky?
Do vyhledávače Seznam.cz zadejte operator site: a název vaší
domény – tedy např. site:mujweb.cz. Následně projděte
všechny výsledky ručně a zkoumejte, zda jsou správné a neobsahují
nechtěné parametry. Jednoduchý, ale pracnější způsob.
Pokročilí mohou využít efektivnější řešení. Využijte rozšíření
Chrome Scraper a všechny URL z vyhledávání si postupně
načtěte, zkopírujte například do Excelu a zde pomocí pokročilého
vyhledávání najděte zaindexované stránky s parametry.
Jak problémovou indexaci řešíte vy?
Máte nějaké vlastní ověřené tipy a postupy, jak se vypořádat
s problémovou indexací na Seznamu nejen v oblasti nesprávných
parametrů?
Popovídejme si o nich v komentářích.
Autorem článku je Pavel Tlapák.
Jak se stavíte k možnosti dát canonical na všechny stránky s tím, že by ty správné odkazovaly samy na sebe? Z pohledu vyhledávače by to špatně být nemělo a vyřešilo by to problém.
Lukáši, ano toto je správná cesta. V podstatě toto navrhuji v části Řešením je canonical.
V článku uvádíte: Nebo si jako základ můžete stáhnout námi upravený robots.txt, který zamezuje Seznamu procházení stránek s UTM parametry.
Ale odkaz ke stažení jsem nikde nenašel. Můžu o něj poprosit? Díky:)
Už můžete stahovat – děkujeme za upozornění :)
Robot.txt obsahuje mensi chybicku: v pripade, ze jsou veskera utm pripojena pomoci „& "a pomoci "?“ je pripojeno neco jine (pred utm znackami), tento regularni vyraz nebude fungovat. Tuto situaci lze snad vyresit napr. napsanim „Disallow: /*\&utm“, ale je nutne se presvedcit, ze je v url vice utm znacek (jinak zase nebude fungovat situace s jedinou utm znackou, ktera zacina otaznikem). Nejlepsi by bylo pouziti kombinace. Takze jestli se nepletu „Disallow: /*(\?|\&)utm“ (kombinace Disallow: /*\?utm a Disallow: /*\&utm). Kdyztak me prosim opravte :-) PS: pred & si nejsem 100% jisty, zda se pise „\“
Díky za tip. Zápis jsme posunuli ještě dál. Nyní by měl fungovat pro všechny varianty a jen při použití správných zápisů utm: Disalow: /*(\?|&)utm_(source|medium|campaign|term|content)=