Už víc jak týden přemýšlím zdali NetMonitor ve své touze „zachránit co se dá“ nechtě nezpochybnil důveryhodnost měřených dat. 2 března mezi 5 a 8 hodinou došlo k výpadku infrastruktury ISP přes něhož je služba připojena k Internetu. Uvedená hláška mě zaujala na tolik, že mne napadlo hned několik dalších otázek směřující k důvěryhodnosti takových výstupů.
Předesílám, že nic z toho není tak vážné, aby mi zabránilo výstupy NetMonitoru používat. Míra důvěry v tento systém je pořád celkem velká. Přesto je dobré si tyto otázky minimálně položit…
Jak se uvádí ve zprávě, která se zobrazí při přístupu do statistik: „nezaznamenání značné části provozu“ a „statistiky pro den 2. března mohou být podhodnoceny“. Tyto dvě věty si odporují a jsou takovým zvláštním pokusem o eufemismus. Pokud došlo k nezaznamenání značné části provozu, pak statistiky ne že mohou, ale JSOU podhodnoceny.
Otázkou je zdali tato neúplná data mají být dál použita tj. vůbec prezentována. Osobně si myslím, že ne. Podle varovné zprávy NetMonitoru, ale mohu soudit, že se stal přesný opak.
NetMonitor umožňuje spojovat více serverů pod jednu položku a i když bych k tomu v některých případech měl výhrady, takříkajíc čert to vem. Trochu víc mě vadí, že obsah těchto položek se někdy až příliš dynamicky měni. Prostě jak se komu hodí, jaký dojem chce nebo nechce vyvolávat.
Nadherným příkladem je Aktuálně.cz s jehož statistikami jsem často pracoval při psaní článku Aktuálně.cz: úspěšný projekt, nejistá strategie.
Od svého vzniku 1.11.2005 prošla tato položka v NetMonitoru několika změnami. Co si vzpomínám tak minimálně třemi. Nejdříve se pod Aktuálně.cz ukrývalo pouze Aktuálně.cz. Pak najednou objevilo Aktuálně.cz – celek, které NAHRADILO ve starších datech Aktuálně.cz a vlastní Aktuálně.cz se octlo pod touto položkou spolu se Sportplus!
Nyní toto hlubší členění zmizelo a položka se jmenuje „Aktuálně.cz“ a obsahuje samotný zpravodajský server, kulturu (mimo jiné i bulvární články, TV program, program kin a divadel …), ale nově je tu nejenom zmiňovaný Sportplus.cz, ale dokonce i ZdravíWeb.cz, a SvětVěcí.cz.
Čistě jen s těmito daty (pokud nemáte současně i starší data z NetMonitoru) nelze ani odhadnout dlouhodobý trend, který je tímto dokonale maskovaný. Je škoda, že NetMonitor něco takového vůbec dovoluje. Pro dlouhodobější analýzy je to dost podstatná metodická chyba.
To, že Centru se díky tomu daří s návštěvností Aktuálně.cz pohybovat nad pár desítek tisíc UV nad hranicí 100 000 UV je sice hezké, ale již nikdy nebude zřejmé co je to vlastně za čísla. A budeli chtít někdo srovnávat Aktuálně.cz třeba s iDNES? V tuto chvíli lze srovnávat jen Aktualně.cz s iDNES jako celkem a nebo lépe Zpravodajství Centrum s iDNES. Podrobnější srovnání by nebyla relevantní.
Možná že obdobné „posuny“ našel u jiných serverů. Zde mě pouze zaujal jejich rozsah a četnost.
Vidím v tom zamyšlení a velké otázky pro tvůrce metodiky NetMonitoru.
Já vidím ještě jeden nedostatek NetMonitoru. Jejich měsíční poplatek je pro menší projekty natolik zabijácký, že si ho nemohou podle mého názoru dovolit.
Bylo by třeba super, kdyby udělali NetMonitor Lite za pár stovek měsíčně, který by nabídnul malým projektům pouze audit návštěvnosti a sociodemografii 1x ročně (klidně i s příplatkem).
Přehled malých projektů by klidně mohl být v jiné kolonce než oficiální NetMonitor. Ale platit pár tisíc je pro malý projekt hrozná pálka.
Ad "mohou byt podhodnoceny" - pokud na web nebyl pristup v dobe od 5:00 do 8:00, tak nejsou. Ale to je "odlisnost spise pravnicka".
Na druhou stranu pokud nebudu pocitat s dennimi statistikami pro ten den, tak pak abych byl konzistentni asi nemuzu pocitat ani mesicni statistiky pro ten mesic. Jelikoz se tak stalo v "off hours", tak je IMHO reseni s timto upozornenim pomerne rozumne...
[2] právo a selský rozum nejsou občas ve shodě. Jaká je pravděpodobnost, že na žádný sledovaný web nepřišel žádný člověk?
Ne, to tak není. Pokud vypustím 2 hodiny v deeních statistikách tak nemám šanci přijít na to zpětně - leda bych existoval nějaký seznam dnů v niž bylo měření nedůvěryhodné.
U měsíčních dat naopak výpadek jednoho dne vůbec nevadí. Jednak můžu snadno porovnání s denními daty zjistit kde je "rozdíl" a jednak měsíční data bez dalšího zpracování jsou obtížně trendově použitelná.
První věc s níž je třeba se vypořádat je rozdílný počet dní v měsíci. To by ještě šlo a v rámci toho výpočtu je možné korigovat i jeden chybějící den měření.
Druhý problém měsíčních dat je potenciálně nestejný podíl pracovních dní a dnů volna, které s celkovými čísly mohou dost zamávat. To už je obtížnější nějak rozumě korigovat.
Příklad. únor 2005 má 8 dnů pracovního volna, V roce 2004 jich měl 9.
Když se podíváte na březen tak 2005 měl 8 dnů volna, 2007 jich bude mít 9 a v roce 2008 dokonce 10.
Jak taková čísla porovnávat v rámci jednotlivých měsiců když nejsou porovnatelná ani v rámci stejných měsíců?!
[3] No dobre, tak "matfyzacka" odlisnost :-) Ano, je vysoce pravdepodobne, ze byly naruseny vsechny, ale jistotu proste nemame. Mozna je to jen moje profesionalni deformace projevujici se snahou o pouzivani presnych formulaci :-)
S temi mesicnimi statistikami mate pravdu, jelikoz se stejne lisi pocty dnu, pocty dnu o vikendu, tak to asi vyrazne nevadi.
Selhat může i ta nejdokonalejší technika, může to postihnout kohokoliv z nás a nic s tím nenaděláme. Nextra
si vybrala pro výpadek docela "vhodnou" denní dobu, kdy počty přístupů
jak z Evropy, tak z Ameriky jsou minimální. Navíc je to doba, kdy se
většina z nás teprve "rozmýšlí", zda půjde do práce :) , a tak likvidaci
výpadku před 8h ranní považuji za velmi
slušnou reakci. Vzhledem k tomu, že 2. březen byl čtvrtek, nahradil
bych chybějící data u všech serverů např. průměrnými hodnotami z
ostatních pracovních dnů za poslední týden.
z hlediska srovnání Aktuálně a iDnes je ještě nasnadě srovnávat s iDnes-zprávy - celek, kde je také obsažen sport a ekononika s financema. Jinak nevidím důvod, proč by si nemohly servery měnit struktura podle uvážení a přidávat nové sekce .. navíc nevím, jak s tím souvisí metodika NM ..
kontrolní otázka .. server iDnes spustil s velkou kampaní Ona.idnes, kam je asi počítána návštěvnost?
ad výpadek 2.3.: právě že na servery přišel "nějaký ten uživatel", výpadek nebyl úplný a tak nějaký traffic protekl a s tím se dá na dosti vysoké hladině spolehlivosti předpokládat, že "nějaký ten uživatel" neni skutečně započítán, proto mi přijde více než korektní uvést tuto hlášku, která vše vysvětluje .. zejména ve spojení, že ne všech zúčastněných se výpadek dotknul stejnou měrou
Přečteno 177 034×
Přečteno 141 269×
Přečteno 81 849×
Přečteno 76 913×
Přečteno 66 274×