Řešení duplicitního obsahu pomocí canonical tagu
17.4.2009Google před dvěma měsíci oznámil
podporu nového tagu – link canonical. Jedná se
o zajímavou možnost, jak se vypořádat s problémem duplicitního obsahu.
Pokud máme dvě velmi podobné stránky, můžeme pomocí tohoto tagu
vyhledávači říct, že jedna z URL adres je „primární“.
Chybějící dobré řešení
Dosud se dal problém duplicit a podobností řešit v podstatě třemi způsoby:
- Vyhledávač rozpoznal duplicitní/podobný obsah sám a jednu stránku vyřadil z indexu. Tím tato stránka pro vyhledávač prakticky přestane existovat a mimo jiné se tak tříští efekt zpětných odkazů.
- Duplicitní stránka se zakázala pro indexování. Webmaster tak mohl sám
rozhodnout, která ze stránek je pro něj důležitější, a druhou označil
meta tagem „robots“ s parametrem „noindex“ (
<meta name="robots" content="noindex, follow">), případně indexaci zakázal v souboru robots.txt. I zde ale přetrvává nevýhoda v tříštění zpětných odkazů. - Duplicitní adresa se přesměrovala na hlavní URL pomocí hlavičky 301. Tímto se duplicitní obsah z webu zcela odstraní, čímž odpadnou v podstatě všechny problémy. V případě podobného obsahu ale tento postup většinou nemůžeme použít.
Ani jedna z uvedených možností není zcela ideální. Google proto nabídl další cestu. Na duplicitní či podobné stránky stačí přidat následující tag:
<link rel="canonical"
href="http://www.example.com/url">
Tím dáme vědět, že se jedná o duplicitu k uvedené kanonické adrese. Vyhledávač pak jednoduše spojí hodnotící faktory pro obě stránky dohromady právě pro tuto primární URL. Z pohledu robota jde v podstatě o řešení velmi blízké 301 přesměrování.
Pro duplicity nevhodné
Je ale na místě zdůraznit, že nový tag není vůbec vhodný k odstraňování stoprocentních duplicit. Tedy případů, kdy vede více různých URL na jednu a tutéž stránku. V takovém případě je nutné duplicity skutečně zcela eliminovat – zanechat pouze primární URL, sjednotit na ni všechny odkazy a na ostatních URL zřídit 301 přesměrování.
Takovými typickými příklady jsou duplicity hlavní stránky
(example.com, www.example.com,
www.example.com/index.html…), session parametry
(www.example.com?sessionid=1234), měřicí parametry
(www.example.com?utm_source=sklik&utm_medium=cpc) nebo první
strana stránkovaného výpisu (www.example.com/vypis,
www.example.com/vypis?strana=0).
Použití v praxi
Využití tagu canonical tak nakonec zůstane pouze pro specifické případy duplicit a zejména podobností:
- U textově nepříliš hodnotných vícestránkových výpisů, kdy další stránky jsou velice podobné té první a nemá sama o sobě pro vyhledávače žádnou větší hodnotu. Například výpis nějakého dlouhého seznamu čísel, hodnot apod.
- Je vhodný při různých řazeních nějakých seznamů, kdy se jeden a
tentýž výpis může řadit nahoru či dolů
(
www.example.com/vypisvs.www.example.com/vypis?razeni=pozpatku). - Může být řešením výpisů různých barevných a jiných variant
stejného zboží, kde se různé stránky liší často jen obrázkem a
nepatrnou změnou textu (
www.example.com/produktvs.www.example.com/produkt?barva=cervenavs.www.example.com/produkt?barva=modra). - Lze jej využít k nasměrování vyhledávače z https varianty na obyčejnou http verzi stránek.
Implementační detaily
Pro podrobné informace, jak canonical využívat, doporučuji přečíst oficiální nápovědu. Nejdůležitější věci, na které si dát pozor:
- Stránky by měly mít stejný či velmi podobný obsah.
- Odkaz musí směřovat na stejnou doménu či subdoménu.
- Adresa stránky může být zapsána relativně i absolutně.
- Odkazy je možné řetězit, Google však doporučuje linkovat na konečnou stránku.
Podpora ve vyhledávačích
Z vyhledávačů důležitých pro českých trh ohlásil podporu pouze Google, který s tímto nápadem přišel. Seznam zatím canonical oficiálně nepodporuje, dá se nicméně očekávat, že dříve či později začne.
Ve světě je podpora na lepší úrovni, z ostatních vyhledávačů podporují canonical tag Microsoft Live Search, Yahoo! a Ask.com.

[1] Edie 17.4.2009, 16:51
Pěkné shrunít. Díky!
[2] Yuhů 17.4.2009, 18:31
Seznam oficiálně prohlašuje, že v budoucnu bude link canonical podporovat. Začnem s tím v tu chvíli, kdy to bude mít smysl, což poznáme podle toho, že se link canonical bude užívat ve stránkách v větším než malém množství. Jak se totiž zatím vyskytuje v malém množství, nedá se to pořádně v terénu testovat. No a za druhé máme zatím důležitější věci, na co programovat funkci, kterou zatím skoro nepoužijeme?
[3] Jakub Vrána 17.4.2009, 20:50
Vynikající článek, Petře. Jen doplním, že pokud chci session proměnné podporovat i u uživatelů s vypnutými cookies, tak moc jiných možností než předání v URL není. Takže pro tento případ se tag canonical také využije.
[4] tybi 19.4.2009, 20:58
Detail, ale celkem důležitý… Nasledovné tvrzení totiž není pravda:
„Vyhledávač rozpoznal duplicitní/podobný obsah sám a jednu stránku vyřadil z indexu. Tím tato stránka pro vyhledávač prakticky přestane existovat a mimo jiné se tak tříští efekt zpětných odkazů.“
Pokud vyhledávač (minimálně Google, ale pravděpodobně i ostatní) rozpoznal duplicitu v rámci jednoho webu, pak provedl „canonicalization“ a vybral jednoho reprezentanta z množiny duplicitních stránek. Ostatní URL pro něj ale nepřestaly existovat a zpětné odkazy, které vedou na ty ostatní stránky (ne reprezentanta), se započítavají pro reprezentující URL.
Takže, jestli vyhledávač rozeznal duplicitní obsah, k tříštění odkazového efektu nedochází. Problem je spíše v tom, když to nerozezná, nebo když to rozezná špatně.
[5] Jan Tichý 20.4.2009, 09:34
[4] Takovouhle automatickou kanonizaci dělají jen některé vyhledávače jen pro některé typické případy duplicit, například pro variantu s
wwwa bezwww. Rozhodně to neumí všechny vyhledávače. A ty, co to umí, nekanonizují AFAIK paušálně všechny nalezené duplicity, ale jen právě těch několik explicitně ošetřených případů.Duplicity je potřeba řešit systémově (tedy jejich odstraněním, nikoliv nějakým tagem) tak jako tak, ať už kvůli vyhledávačům, které kanonizovat neumí, anebo třebas kvůli uživatelům (jedná se přece i o problém z hlediska použitelnosti).
[6] tybi 20.4.2009, 12:49
Jak jsem psal, nevím, jak se chovají ostatní vyhledávače, ale nevidím důvod, proč by se chovali jinak, nebo proč by se dříve nebo později nezačali chovat stejně. U Googlu celkem určitě nejde jen o typické duplicity.
Nespochybňoval jsem důležitost odstranění duplicit, spochybnil jsem to jedno tvrzení. Duplicity je potřebné řešit – jednak kvůli použitelnosti a jednak jako pojistku, že se ve výsledcích bude zobrazovat to správné URL.
[7] Roman Appeltauer 20.4.2009, 13:58
tybi, i ve vyhledavačích, které zvládají „kanonizaci“ dochází k tříštění efektu odkazů v závislosti na kvalitě schopnosti rozpoznat, co se má spojit a co ne. :)
Je určitě dobře, že to Honza zmínil. V praxi taky vidíme, že efekt kanonizovaného odkazu nebývá stoprocentní. To se projevuje např. pokud ke spojení stránek dojde přesměrováním.
Jestli se nemýlím.
[8] Martin 16.1.2012, 14:01
Velmi dobry clanok