Hlavní navigace

Hledání dokonalého agregátoru (1)

6. 2. 2013 8:55 Tomáš Bleša

Po přibližně dvanácti letech budování zpravodajského agregátoru jsem dospěl k závěru, že udělat dobrý agregátor není snadné. V mém přesvědčení mě utvrzuje to, že i ty nejpoužívanější agregátory nedosahují dokonalosti, včetně Google News nebo Flipboardu.

Disclaimer: Tento článek (včetně pokračování) se budu snažit psát maximálně nezaujatě, ale musíte vědět hned na začátku, že zaujatý jsem. Několik let tvořím a provozuji český zpravodajský agregátor Právě dnes. Některé zkušenosti z jeho provozování a výroby bych vám rád předložil.

Agregátory jsou strašně zajímavé. Pokud byste chtěli nějaký naprogramovat, umožní vám krásně se programátorsky vyřádit. Začnete si pohrávat s databází, pak s fultextových vyhledáváním, s dolováním dat z HTML, zpracováním přirozeného jazyka, Bayesovskou statistikou, klasifikací, clusterováním, atd. Při tom všem řešíte, jak efektivně uložit gigabajty dat, které taháte z internetu a jak je poutavě prezentovat na webu. Prostě nádhera.

Docela hezky se o agregátorech na podzim rozepsal Petr Koubský v svém článku Dobré elektronické zpravodajství robot nevyrobí. V tomtéž článku je psáno, že jsme (na Právě dnes) myšlenku agregátoru nikterak nerozvinuli, což má asi pravdu. K nějakému rozvoji v průběhu roku 2013 zcela jistě dojde, ale teď bych se chtěl tak trochu věnovat první příčitě toho, proč není tvorba dobrého agregátoru úplně jednoduchá záležitost.

Problém #1 – Politika a peníze aneb agregátor je zloděj

Velké vydavatelské domy si stále nezvykly na koncept hyperlinku. Mediální matadoři, kteří začínali svoji kariéru na papíře se cítí ukřivděni, když někdo jiný použije titulek jejich článku v hyperlinku. Jsou tací (a osobně jsem jednoho slyšel mluvit), kteří by zakázali i jedno osamocené použití bez předchozího souhlasu autora. Vidíte ten link o dva odstavce výš? Podle některých bych měl nejprve požádat Petra Koubského o svolení, abych mohl použít jeho titulek.

Mírnějšímu křídlu odpůrců linkování vadí hyperlink jen tehdy, když je nadužíván. Nejraději by zavedli jakýsi koncept většího než malého množství linků. Pro takové by byl link v článku v pohodě, ale systematické linkování agregátorem je už za hranicí slušnosti.

Zbytek mediální populace jsou příznivci linkování a pravděpodobně jim nevadí nebo je minimálně tolerují. Berou link jako součást internetu, možná i jeho hlavní atribut.

Zatímco první skupinu lze ignorovat jako extrémisty nebo dinosaury, druhá představuje pro jakýkoliv agregátor problém, a proto se jí budu víc zabývat.

Mírnější křídlo odpůrců hlasitě prezentuje, že nechce linkování a označuje agregátory za parazity. Současně ale investuje do SEO, kvůli nejlepší pozici na Googlu. Členové křídla vytvářejí dojem, že je rozdíl mezi linky v Google Search a linky v Google News. V jedné službě by linky na svoje články viděli rádi a v druhé službě (víc specializované) je jim to trnem v oku (nebo to jen předstírají).

Linky nechtějí, ale nepodniknou žádné kroky k blokaci stahovacích robotů (což je technicky poměrně snadné). Pravdou je, že i tato skupina má linky ráda. Akorát to nesmí říct nahlas, protože pak by nemohla požadovat výpalné od agregátorů. Jejich hlavní mantra vypadá asi takto:

Vydavatelé: My děláme obsah. Vy na něm profitujete bez finanční kompenzace pro nás.

Zapomínají však na to, že každá rovnice má dvě strany. V tomto případě ta druhá strana vypadá následovně:

Agregátor/vyhledávač: My děláme vyhledávací (agregující) technologii, která Vám přináší návštěvníky. Vy z toho profitujete bez finanční kompenzace pro nás.

Abych byl přesný, vydavatelé na to nezapomínají, protože kdykoliv jsem se snažil použít tento argument, dostal jsem odpověď přibližně v tomto tvaru:

Vydavatelé: Uživatelům stačí přečíst titulek a perex článku a vůbec nekliknou, aby přišli k nám. Tím naopak přicházíme o čtenáře.

Než tuto kapitolku problematiky agregátorů uzavřu, tak se pokusím ještě poprat s tímto běžným argumentem.

Ano určitě je nějaké procento uživatelů agregátoru, kteří na titulek nekliknou, ale troufnu si tvrdit, že to je hlavně u zpráv, které je až tak moc nezajímají. Pokud uživatel narazí na článek, který má poutavý titulek, zcela jistě bude chtít kompletní text. Když se vrátím k odkazu na článek P. Koubského, pochybuji, že byste se spokojili s titulkem a prvním odstavcem. Prostě Koubský tvrdí, že zpravodajství robot nevyrobí a hotovo – nikam se klikat nemusí. 

Myslet si, že agregátor nechce, aby lidi klikali na články a tak chodili ke zdroji je možné jen tehdy, pokud žádný agregátor neděláte. Realitou je, že slušný agregátor se bez kliků uživatelů neobejde. Databáze prokliků je totiž cenným zdrojem informací a může posloužit k přizpůsobení agregátoru konkrétnímu uživateli. 

Představte si, že má o vás agregátor v databázi, že jste 65× klikli na článek z Lupy, 22× článek z Živě, a 5× z TechCrunch. Je to cenná informace a kdyby ji agregátor neměl, tak by vám možná při příští návštěvě nabídnul článek o hubnutí z nějakého ženského magazínu.

Kliky jsou pro každý agregátor důležité a pokud by jim bránil svou koncepcí nebo designem, tak si pod sebou řeže větev.

Ve sporu mezi vyhledávači/agregátory a vydavateli je možné občas narazit na opravdu veselé (pokrytecké) případy. Vemte si např. Aktuálně.cz, které produkuje hodně internetového zpravodajství a patří mezi zastánce toho, že by agregátory měly vydavatelům platit. Na druhé straně Aktuálně.cz patří pod Centrum holdings, což je firma provozující vyhledávač (postavený na technologii Googlu). Vyhledávač Centrum.cz nejenom, že zobrazuje linky na cizí obsah, ale nabízí u nich i volbu „Náhled“, která uvnitř stránky Centra zobrazí ve vnořeném rámci cizí web. Kdyby si tohle dovolil Google News, tak by na něj „naběhly“ další státy (nejen Brazílie a Německo).

V prvním díle článku jsem se nemohl vyhnout “politice”, ale v pokračování bych rád byl víc techničtější a věnoval se problematice zobrazování zpráv, tj. design, UX, GUI, apod.

Pro doplnění bych ještě uvedl svůj dřívější článek k tématu:

Využívání obsahu na internetu – mýty a přání vydavatelů

… a ještě zajímavý článek, který vyšel tady na Lupě:

Google zaplatí médiím ve Francii 60 milionů eur, zřejmě na tom ale vydělá

Sdílet