Hlavní navigace

Objevuji Ameriku: Google ohýbá česká slova

8. 5. 2007 20:43 (aktualizováno) | koppel

Asi se dočkám smrště sarkastických komentářů ve stylu: „Ty máš teda postřeh!“, ale pro mne je to rána z čistého nebe: Všiml jsem si, že Google je schopný hledat i ve tvarech českých slov. Není úplně jednoduché ho k tomu donutit, protože obecně zřejmě stále preferuje čistou shodu, ale třeba na tomto dotazu je to vidět docela dobře. Sloveso „získat“ je ve výsledcích v několika různých tvarech. Kromě ohýbání slov je dobře vidět, že Googlu nedělá problémy správně propojovat varianty s a bez diakritiky. Takže morfologický modul je dost kvalitní.

Jak říkám, jsem trochu na rozpacích z toho s jak moc velkou nenovinkou přicházím. Je to spojené s tím, že jsem zatím zarputile pro hledání po Čechách používal Jyxo, které považuji za krále v práci s češtinou. Zjištění, že Google v tomto ohledu začína tvrdě dotahovat bude zřejmě zajímavé spíše pro ty co se jmenují Ivo.

Fakt je, že je stále prostor pro růst. Způsob určování relevance stránek tvoří velkou část z hodnoty Google. A ten je zřejmě z velké části společný napříč jazyky. Teď je otázka nakolik do toho mají kecat morfologické aspekty pro každý jazyk. Zatím to vidím tak, že minimálně preference čisté shody je příliš tvrdá. Přece jen je čeština jazyk tak květnatý, že se dá jen těžko odhadnout, zda hledaný text bude na zajímavé stránce přesně v tom tvaru, který jsme zadali. A žádnou optimalizací dotazu to moc neovlivníte.

Budu rád, když mě v komentářích seznámíte nejen s tím, jak moc jsem za dobu, ale také s tím co všechno dalšího Google s naší mateřštinou dokáže. Přece jen mi přijde, že je to od americké společnosti v oblasti IT zatím největší krok ve směru k respektu k našemu jazyku. Nějaké zde nakoupené tezaury v MS produktech s tím v mých očích nemohou soupeřit. Think globally, act locally v praxi.