Přejít k obsahu  Přejít k hlavnímu menu

Firemní weblog poradenské společnosti H1.cz

Zobrazit všechny články
Zpět

SeznamBot/3.0 – lesk a bída nového fulltextu Seznamu

Tým fulltextu Seznamu 25. května na svém blogu po krátké době veřejného testování oznámil nasazení nového SeznamBota s řadovým označením 3.0. A jakkoliv můžeme být nespokojení s tím, jak fulltext od Seznamu funguje, je třeba počítat s tím, že hraje prim na české scéně přirozeného vyhledávání. Výše zmíněné změny měly, dle slov Jirky Chomáta na konferenci Internet pro podnikání, proběhnout už na začátku roku 2011. Bohužel se to Seznamu nepodařilo, a tak tu máme nový SeznamBot s 5 měsíčním zpožděním . Podívejme se, co Seznam sliboval a s čím se reálně můžete potkat.

Seznam.cz: Slibujeme vám, že…

Povězme si nejdříve, co před nasazením SeznamBota Seznam sliboval, že bude umět, rozuměj, dokáže změnit ve vyhledávání:

  • Větší počet výsledků.
  • Drobné změny v pořadí u informačních dotazů.
  • Odstranění obsahového spamu MFA.
  • Údaje o počtu nalezených stránek neznamenají počet zaindexovaných stránek, ale pouze počet stránek, které Seznam pouští do vyhledávání. Zaindexovaných je prý podstatně víc.
  • Změny v logice generování hledací databáze.

Co spuštění SeznamBota reálně znamená

Jednou věcí je, co Seznam říká, a druhou věcí jsou reálné zkušenosti z praxe. Díky velkému počtu klientů, které H1.cz a Ataxo obsluhují, máme k dispozici nemalé množství dat, které nám poslouží k analýze toho, jak nasazení nového robota Seznamu ovlivnilo přirozené hledání na Seznamu.

Srank

Hodnoty Sranku šly relativně dolů, a to zejména kvůli tomu, že hodnota Sranku se určuje k celkovému počtu indexovaných webů. A protože se toto číslo díky většímu počtu zaindexovaných webů zvedlo, tak hodnoty Sranku logicky poklesly. Ranky jsou totiž dle Dušana Janovského spočítané úplně znovua výsledky pro stejnou stránku jsou o cca 10 – 20 bodů nižší než dříve. Je třeba také zmínit, že hodnota Sranku je patrně důležitější z hlediska hodnocení stránek než hodnota GTPR:

Srank je orientační hodnota udávající oblíbenost stránky na internetu. V principu odpovídá pravděpodobnosti, s jakou náhodně klikající uživatel tuto stránku navštíví. Součet všech pravděpodobností dává 1, ale počet internetových stránek neustále roste. Proto absolutní hodnota tohoto ukazatele v čase zákonitě klesá (při nezměněném počtu zpětných odkazů), ačkoliv vzájemný poměr u jednotlivých stránek zůstává zachován. –robert–

Možná i díky tomu Seznam spustil na „searchtestu“ zajímavou funkcionalitu, která na základě parametru v URL dokáže vrátit pro danou URL hodnotu Sranku. Příklad napoví: URL http://searchtest.seznam.cz/rank?… vrací hodnotu Sranku pro doménu H1.cz, tedy 10. Parametry lze i řetězit pomocí následujícího principu: http://searchtest.seznam.cz/rank?…Tato konstrukce vrací hodnotu Sranku pro každou doménu na vlastním řádku, tedy pro výše zmíněný dotaz by to byly hodnoty: 6 5

Indexované stránky

Máme ověřeno, že některé stránky, které byly dohledatelné pomocí operátoru site:, nyní dohledatelné nejsou. Otázkou je, jestli nejsou v indexu vůbec, nebo jestli zaindexované jsou a nepouštějí se pouze do výsledků vyhledávání.

Více výsledků z jedné domény

Po vzoru Google Seznam spustil funkcionalitu, kdy v SERPu bylo možné najít více výsledků z jedné domény. Na základě četných připomínek uživatelů toto ale bylo zrušeno.

Posuny na klíčová slova a MFA weby

Ohledně posunu pozic na optimalizovaná klíčová slova lze říci několik věcí:

  • Silná klíčová slova na prvních stránkách výsledků to ve většině případů příliš nepostihlo. Dochází k drobným fluktuacím v řádu jednotek pozic dolů i nahoru.
  • Slabší klíčová slova (mimo první 3 strany výsledků hledání) se velmi často dostávala na přední pozice v SERPu.
  • Majitelé MFA webů z Webtrhu nehlásí žádné zhoršení, ba naopak někdy i zlepšení situace.:-)
  • V některých ojedinělých případech dochází k fatálnímu selhání odstraněním vstupních stránek webů z indexu (více níže v části o chybách fulltextu).
  • Stránky, které po nasazení vypadly z indexu se do indexu po týdnu opět vrací.

Zajímavou statistiku související s nasazením nového robota Seznamu uveřejnil i Jirka Koutný, autor Collabimu, na svém blogu.

Chyby SeznamBota

Chyba relevance – nyní již opravená je chyba špatného vyhodnocení dotazu „ppc“ na kterou jsme upozornili, kdy Seznam nedokázal poznat, že dotaz může směřovat jak na PPC kampaně (Pay per Click), ale i na Power PC, a špatně ukazoval jen výsledky, které obsahovaly fráze relevantní k Power PC. Tuto chybu podle informací Romana Duška 2. Června Seznam opravil. Dalším problém s lematizací můžete vidět na frázi „plazi“. Pokud byste si totiž chtěli pomocí Seznamu pořídit nějaké plazy, najít veterinární poradnu pro plazy nebo jen hledáte informaci o plazech tak máte smůlu. Můžete sehnat nahé holky na pláži, amatérky z pláží, hotel na pláži, Jenifer Aniston na pláži nebo velrybu na pláži, ale hada vám Seznam prostě nedá. Sákryš. Takže asi úplně neplatí, že to, co hledám, najdu. Naopak, to, co hledám, nenajdu. [caption id=„attachmen­t_4659“ align=„aligncenter“ width=„480“ caption=„Plazi a na pláži a SeznamBot 3.0“][/caption] Myslím, že je jasné, jak tento problém vznikl. Seznam pozná, že slovo plazi, může znamenat i pláži (nominativ singular slova pláž), ale už nedokáže poznat, že plazi mohou také znamenat „obratlovce, jejichž tělo je pokryté tuhými šupinami nebo štíty, a kladou vejce“ – Wikipedie, jak správně pozná například Google. Lematizační algoritmy Seznamu nejsou tedy zcela v pořádku.

Chyba s přesměrováním

To nejlepší na závěr, říká se, ale v tomto to případě to bude spíše v tom opačném gardu. Díky problému na jednom našem projektu jsme zjistili, že Seznam vyřadil z indexu vstupní stránky jednoho webu. Podívejme se na to proč. Tyto vstupní stránky měly adresy www.domena.tld/kategorie/, které byly pomocí kódu 301 přesměrované na www.domena.tld/kategorie – což je mimo jiné dost běžná praktika. Seznam toto přesměrování chápe špatně jako přesměrování na sebe sama a stránky vyřazuje z indexu. Další zajímavostí je inversní postup – www.domena.tld/kategorie přesměrovaná www.domena.tld/kategorie/již z indexu vyřazována není. Toto podivné, a dle mého názoru chybné chování, tak může vést k zásadním obchodním problémům celého webu a jedná se o jednoznačnou­ chybu.

Quo Vadis SeznamBot?

Co říci závěrem? Rozhodně se tým fulltextu snaží vylepšovat svého robota, ale jak už jsme zvyklí, málokdy se mu to podaří napoprvé. Koneckonců malý tým Seznamu se nemůže rovnat silnějšímu týmu Google. Nový robot Seznamu obsahuje chyby, které jsme zmínili v tomto článku a které je dobré znát a přizpůsobit tomu strategii internetového marketingu. Což je to, co jsme se tímto článkem snažili sdělit a snad i vyjádřit přání, že Seznam výše zmíněné chyby opraví. Je dost pravděpodobné, že máte další zajímavé zkušenosti s fulltextem Seznamu a budeme rádi, když se o ně podělíte v komentářích. Mým přáním do budoucna by bylo zlepšení kvality vyhledávače, nové funkce a další rozvoj (zatím se tak moc neděje), protože české firmě přirozeně fandím víc, než americkému Google. Ale! Seznam musí dokázat, že své postavení na trhu vyhledávání má oprávněně a ne jen z historických důvodů. Poté za ním bude stát celá česká scéna internetového marketingu. Přeju v tomto směru českému Seznamu hodně štěstí.

Autorem článku je Pavel Ungr

  • L.H.
    21. 06. 2011 / 17:54

    Seznam se drzi velice dobre pokud clovek vezme pocet vyvojaru a rozpocet se kterym pracuji je zazrak ze vydrzeli tak dlouho.

  • Pavel Ungr
    21. 06. 2011 / 17:58

    No, asi máme jinak nadefinováno slovo „drží“. Já myslím, že spíše přežívá:-) Osobně souhlasím s Danem Dočekalem, že je to jen z historických důvodů, protože pro většinu uživatelů si neumí přenastavit úvodní stránku prohlížeče a internet je pro ně Seznam.cz. Takže to není o přirozeném výběru toho nejlepšího.

    Ale shodneme se, že při počtu vývojářů je to zázrak, že vydržel tak dlouho, ale počkejme si na další data. Myslím, že se dozvíme, že ho Google převálcoval.

    Ale to je celkem horké téma na poli spekulace, které není tak úplně tématem tohoto článků.

  • Martin Prst
    21. 06. 2011 / 18:22

    Nemůžu si pomoc, ale co to tak sleduji, tak se pořadí výsledků od nasazení nové databáze vůbec nezměnilo.

  • Pavel Ungr
    21. 06. 2011 / 18:43

    Martine, asi záleží web od webu. U některých k pohybům došlo, u některých ne.

  • Adam
    21. 06. 2011 / 21:33

    přidám další příklad nelogického odhadu významu slova na docela vyhledávanou frázi

    http://search.seznam.cz/searchScreen?…

  • Jan Tichý
    22. 06. 2011 / 07:14

    „Hodnoty Sranku šly relativně dolů, a to zejména kvůli tomu, že hodnota Sranku se určuje k celkovému počtu indexovaných webů.“

    Takže Srank se nepočítá z webů ve vyhledávacím indexu, ale ze všech webů v přípravném indexu? Dávalo by to smysl, jen se ptám.

    A není náhodou ten propad Sranku způsobený také tím, že Seznam prostě jen změnil distribuční funkci pro jeho výpočet?

    „Silná klíčová slova na prvních stránkách výsledků to ve většině případů příliš nepostihlo. Dochází k drobným fluktuacím v řádu jednotek pozic dolů i nahoru. Slabší klíčová slova (mimo první 3 strany výsledků hledání) se velmi často dostávala na přední pozice v SERPu.“

    Co znamená „silné klíčové slovo na prvních stránkách výsledků“? A co znamená „slabé klíčové slovo mimo první tři strany“ a jak se může dostávat na přední pozice v SERPu, když je mimo první tři strany?

    „Chyba relevance – nyní již opravená je chyba špatného vyhodnocení dotazu ppc“

    Tohle byla zjevně dost specifická chybička, kterých se průběžně stanou stovky, navíc už je dávno opravená. IMHO do článku shrnujícího základní velké změny, přínosy a nedostatky Seznamu vůbec takováhle marginálie nepatří. To je jako kdyby se v článku srovnávajícího hlavní plusy a mínusy českých konzultačních agentur někdo psal jako zásadní argument proti há jedničce: „měli v únoru na jedné své stránce překlep, ale už ho opravili“.

    „už nedokáže poznat, že plazi mohou také znamenat obratlovce, jejichž tělo je pokryté tuhými šupinami nebo štíty, a kladou vejce“

    To si nemyslím, předpokládám, že to dokáže poznat, jenom prostě stránky s plážema jsou logicky daleko lépe optimalizované, takže všemi svými faktory přebijí jakékoliv stránky o hadech. Čili tohle není IMHO problém lematizace, ale nastavení vah, míchání výsledků a práce s tematickými oblastmi v SERPu. Což ale nic neměná na tom, že to má Google zvládnuto skutečně lépe.

    „Seznam toto přesměrování chápe špatně jako přesměrování na sebe sama a stránky vyřazuje z indexu“

    Tohle je potvrzené od Seznamu, že se jedná o jejich bug? Nebo je to pozorované napříč různými projekty? Nebo se vám to prostě stalo na jednom z vašich projektů, tak jste si z toho udělali obecné pravidlo? Na řadě jiných projektů, kde takové přesměrování mám, totiž žádné výpadky z indexu nepozoruji.

  • Ludek L.
    22. 06. 2011 / 09:00

    Dle mého názoru se Seznam do jisté míry snaží přenést problémy s fulltextem do pozitivního smyslu obchodního záměru prodávat co nejvíce PPC kampaní a reklam jako takových. Mnoho firem se do jisté míry staly odázány na internetoví marketing a tak Seznam má příležitost na poli obchodu nyní posílit své preference a prodej placených zápisů v katalogu firem.

    Je zde také aboslutně jasné, že byť to asi nebylo úplně původním záměrem společnosti SEZNAM, tak se jim to nyní hodí do krámu a nemají větší motivaci tento fakt na úrovni fulltextu odstranit v krátké době. Nakonec vždy když s nimi komunikuji dostávám stále stejné odpovědi. Fulltext pracuje správně.

    S odkazem na autora článku se připojuji k jeho vyjádření, že sice fandíme české firmě, ale ne už zase tak moc, když z nás dělají pitomce.

  • Pavel Ungr
    22. 06. 2011 / 09:04

    Ahoj Honzo, moc díky za zajímavé komentáře, zkusím se k nim postupně vyjádřit.

    1. Hodnota Sranku – já myslím, že to souvisí, díky přepsaní se měří nyní jinak.
    2. Silnější klíčové slovo je v mém chápání takové, na které déle optimalizujeme a stabilně se drží na dobrých pozicích. A to jak je možné, že naopak ty slabší se náhle dostaly dopředu je asi spíše otázka na Seznam, jenom shrnuji praktické zkušenosti.
    3. PPC – myslím, že to sem patří, ukazuje to, jaký typ chyb bylo možné najít a podle mne se mohou opakovat.

    4.Plazi – tady s tebou Honzo nesouhlasím, když to porovnáš s výsledky na Google, tak asi nelze říct, že by stránky WEikipedie nebo Encyklopedie.sez­nam.cz byl slabé. 5. Přesměrování – je to poměrně komplexní problém, můžu někdy vysvětlit osobně. Ale dá se říct, že zkušeností s tím máme a že jsme o tom komunikovali i se Seznamem.

  • Radek N.
    22. 06. 2011 / 11:35

    Seznamu fandím, ale s největší pravděpodobností jej google v dohledné době převálcuje (jestli tomu už tak není).

    Mám herní web, 400tis UIP měsíčně, věkové složení návštěvníků 12–21 let.

    Porovnání přístupů za poslední 3 roky.

    2009 … Seznam 85% … Google 15% 2010 … Seznam 80% … Google 20% 2011 … Seznam 59% … Google 41%

    Vzestup přístupů z Google je téměř rovnoběžný se vzestupem Chrome – v posledním půl roce cca 2% každý měsíc.

    Ale možná je přístup Seznamu rozumný, zaměřit se na zbytek portfolia a fulltext jen udržovat při živote.

  • Pali
    22. 06. 2011 / 13:51

    [9] Radek „Vzestup přístupů z Google je téměř rovnoběžný se vzestupem Chrome – v posledním půl roce cca 2% každý měsíc.“ : šikovný postreh; zrejme je jasné aký dôvod malo začiatkom roka obliecť Prahu do „Chromovských šiat“ – Seznam.cz si takúto kampaň pravdepodobne dovoliť nemôže, či už z finančného hľadiska alebo z úcty voči hlavnému mestu

    [8] Pavel S tými redirectami je to z môjho pohľadu ok, keby som si staval vlastného bota tak by som predpokladal že mi tie dve adresy vrátia rovnaký obsah. Tzn. že v tomto prípade je to cyklický redirect, ako si správne poznamenal. Ak poznáš majiteľa tých stránok, poraď mu vyhľadávanie buď http://search.seznam.cz/?… alebo http://search.seznam.cz/?… – Podľa tlačovky Robota Seznam kanonické linky podporuje.

    Ešte k tomu presmerovaniu: tiež ma zaujíma odpoveď Seznamu na tento probém a som si istý že sa dá skrátiť do troch viet.

    [7] Luděk Fakt pomeru počtu programátorov v týchto dvoch spoločnostiach a pomeru ziskov spoločností (pomer PPC klientov ČR vs. svet) súhlasím s tým, že fulltext Seznamu funguje správne a viem o tom že sa najprv opravujú chyby a všetky inovácie čakajú len na to kedy dostanú priestor. Ja mám s komunikáciou zo strany FT teamu Seznamu len dobré skúsenosti. Kľúčové je asi vedieť položiť správnu otázku na správnej adrese. Tá stránka je myslím niekde na sblogu, nový Robot asi nie je až tak chytrý aby vedel z internetu vyťahovať diskusné príspevky ktoré sa ho priamo týkajú

  • Pavel Ungr
    22. 06. 2011 / 17:38

    Pali: No, právě, že z pohledu vyhledávaču, i když nám to nemusí přijít úplně logické, jsou to 2 různá URL. Stejně jako http://www.h1.cz a http://www.h1.cz/index.php. A je možné mít jak na tomto příkladu tak na výše zmíněném odlišný obsah. Takže standardně předpokládat, že se jedná o přesměrování samo na sebe není dobře. Myslím, že canonical je z hlediska SEO nevhodné řešení pro tento případ. Nejedná se o to, že by na 2 URL byl stejný obsah. Jinak ke komunikaci se Seznamem – ta komunikace byůla vedena jako soukromá a bez pověření zúčastněných stran to nechci zveřejňovat.

  • Luděk. L.
    22. 06. 2011 / 20:08

    Pali: Neporovnávám zde poměr a výkonost jednotlivých programátorů a teamů. Pokud něco dělám tak buď to dělám dobře a pak sklízím potlesk a obdiv, nebo to dělám na 90% a pak je logické, že musí být sklízena i kritika.

    Navíc kritika nikdy nikomu ještě neublížila. A já osobně mám za sebou několik dlouhohých diskuzí s Hepldeskem Seznamu a bohužel mne o profesionalitě nikdo z nich zatím tak moce nepřesvědčil abych mohl říct, že to že věci na jedno z největších českých vyhledávačů po spuštění nefungují jak bychom svým způsobem očekávali omluvíme tím, že mají menší team.

    Mnoho našich zákazníků, když jim předáme nedej pánbu chybnou aplikaci Vám udělají přednášku o tom co si objednali a za co platí. Takže proč bychom měli být my v podstatě tolerantní k teamu fulltextu, když naopak jejich výsledky nyní poškozují naší práci u klientů, kteří toto v první řadě povrchně posuzují jako naší neschopnost dělat věci správně?

    Myslí, že ti kdo tyto věci způsobují svou nezodpovědnou prací si možná tyto důsledky neuvědomují a nebo je jim to prostě fuk.

    Nikdo z nás co jsem zde četl nepřeje Seznamu nic špatného, ale asi by se nad sebou měli hoši někdy více zamyslet než začnou házet hesla o bezchybnosti a plné funkcionalitě na veřejnosti.

  • Pali
    23. 06. 2011 / 15:01

    [11] Suhlasím s príkladom v 11tke… a čo sa týka tej komunikácie, akceptujem to, keď ste sa takto dohodli.

    [12] Súhlasím, že objektívna kritika je potrebná pre každú spoločnosť. A to, či AKÁKOĽVEK firma pracuje zodpovedne s generovaním prirodzených chýb, alebo vedome nezodpovedne, nie je asi v mojej kompetencii ;)

  • Jaroslav Vidim
    23. 06. 2011 / 17:10

    [6] Ahoj Honzo, na některé otázky ti Pavel odpověděl, na některé méně a na některé vůbec. Proto jen doplním pár oficiálních poznámek:

    1. Hodnota Sranku: O změně distribuční funkce Seznam žádnou informaci nevydal a IMHO k ní neměl ani důvod. 3. PPC: Tady s tebou zásadně nesouhlasím. Rozhodně se jednalo o zásadní bug a ne o žádnou „marginální“ záležitost. Rozhodně bychom našli řadu odbobných případů. Jako příklad jsme uvedli klíčové slovo, které nám připadalo dostatečně demonstrativní. Celý článek měl shrnout naše zkušenosti s novou verzí Seznambota. Z toho důvodu tam tento bod zkrátka patří. Názor ať si ale udělá každý čtenář sám… 4. Plazi: Nezlob se, ale tady jsi (v touze kritiky za jakoukoliv snahu) prostě šlápl vedle. Porovnej pls výsledky v Googlu a Seznamu. Že by Seznam vracel relevantní (a lépe optimalizované) výsledky? Mě to tak nepřipadá… 5. Přesměrování: Tuto informaci máme potvrzenu přímo ze Seznamu, takže se nejedná o žádnou naší domněnku nebo vaření z vody. Skutečně se jednalo o jejich bug, který opravili na základě našeho upozornění.

    Celkově si myslím, že Pavel napsal velmi zajímavý článek, který bude jistě přínosný pro řadu čtenářů.

  • RobRoy
    28. 06. 2011 / 10:19

    Je to boj, je to boj…

  • Olda
    28. 06. 2011 / 13:58

    Pěkný příklad relevantnosti výsledků nového SeznamBota je na blogu http://splavek.blogspot.com/…e-neumi.html

  • GVKB
    28. 01. 2012 / 10:35

    Seznam je Titanik který jde ke dnu kdo může se snaží dostat na loď Google. Vše je o penězích, nejsou peníze není vyhledávání, Google peníze má a tak vyhledává. http://www.youtube.com/…zechRepublic http://www.stream.cz/….cz/KoubaVit

  • Josef
    24. 06. 2012 / 12:25

    Myslím, že na možnosti Seznamu mají vyhledávání dobré. Ale měřit se se světovou jedničkou je prostě obtížné. Jediná jejich šance je, že využijí to , že jsou doma. relevantnost, kontakty, lepší porozumění webům. To se zatím moc neděje.

RSS feed komentářů k tomuto článku
RSS feed komentářů ke všem článkům



(nebude zveřejněn)



Položky označené * jsou povinné