Vyhledávací systémy v Česku? Bída!

Na Interval.cz nejdou v této chvíli přidávat komentáře, tak to učiním alespoň zde. David Bureš napsal hezký článek Artefakty informační architektury – vyhledávací systémy. Opravdu pěkně shrnuje vyhledávání jako jednu z možností navigace.

Existují dvě běžné varianty vyhledávacích systémů. Jednodušší varianta poskytuje uživateli primitivní rozhraní pro zadání dotazu. Může použít běžný jazyk nebo speciální vyhledávací výrazy, jakou jsou booleovské operátory (AND, OR, NOT), popřípadě nástroj pro vytvoření dotazu. … Výsledky jsou pak zobrazeny v ideálním případě setříděné podle relevantnosti.

Složitější varianta je čím dál běžnější. V systému jsou vytvořeny záznamy obsahující metadata reprezentující dokumenty. Jak metadata, tak dokumenty mohou být uloženy v databázi nebo CMS. Dotazy jsou porovnávány s indexy vytvořenými nad těmito metadaty. Výsledky pak bývají mnohem přesnější.

Druhý způsob je „prý“ běžnější. Nevím kde, ale na českých serverech to nebude. Např. samotný Interval.cz nemá řádně propracovaný ani první způsob. Na dotaz „systémy vyhledávací“ nenajde žádnou položku. Na jiných serverech je situace obdobná.

Jako autor jednoho takového webu to velmi dobře chápu. Oříšek také nemá dobře propracované vyhledávání. Před časem jsem se snažil něco připraveného v krabici najít, ale byl jsem neúspěšný. Open-Source redakčních systémů je nepočitatelno, ale kvalitní vyhledávání… Dobře naprogramovat a řádně propracovat jen první popisovaný způsob vyhledávání je nesmírně složité a troufám si říci, že něco takového na českém webu najdeme jen těžko. Natož druhý způsob, jehož možnosti a pravidla David popisuje v článku. Něco takového ideálního se pomalu rovná napsání jednoduchého CMS.

Webmasteři webů ví, že fulltextové vyhledávání je nutnost. Ví, že dát uživatelům možnost napsat něco do bílého okénka je nezbytnost, ale dál se o to příliš nestarají. To je, bohužel, realita.

Jinak článek se mi líbil a mnoho z něj uplatním při realizaci jednoho projektu.

Pozor na otevírání obrázků v IE

Již před nějakým časem vydala společnost Finjan Software zprávu, ve které informuje o 10 nových zranitelnostích na OS Windows XP SP2 s prohlížečem IE6.0. Později byly tyto zprávy více konkretizovány
(obejití varovných upozornění při otevírání stažených souborů pomocí upravených HTTP hlaviček a podvrhnutí přípony souboru v „Save HTML Document“ dialogu, uživatel si tak může stáhnout spustitelný soubor v domnění, že jde o HTML dokument). Dnes server Secunia oznámila další bezpečnostní chybu, díky které může uživatel pomocí volby „Uložit obrázek jako“ („Save Picture As“) stáhnout jiný soubor, než který původně zamýšlel a nebude na to systémem upozorněn. Alespoň máte další důvod tento prohlížeč přestat používat.

Průběžně o těchto událostech informoval server Actinet:

Chudák čtenář

Dnes vám povím jednu krátkou pohádku. Pohádku o tom, jak zpravodajské servery neradi odkazují na původní zdroje. I když teď si vlastně vzpomínám, že to pohádka vůbec není.

Byly jednou dvě agentury, které provedly zajímavé výzkumy o oblíbenosti médií mezi uživateli. Po dvou týdnech, respektive měsíci si toho všimne nějaký slovanský zpravodajský portál, redaktoři sekce Počítače o tom napíšou jakýsi článek, ale na původní výzkum už neodkáží. Čtenáři jsou sice s oněmi zajímavými daty seznámeni, nicméně jsou ochuzeni o vše ostatní. Grafy, tabulky, původní komentáře… V pár odstavcích, v textu jsou zahrnuta všechna čísla, které ony agentury zjistily. Natěsno nahuštěné, nepřehledné, nezáživné. Chudák čtenář.

K tomu se dostane další rádoby zpravodajský server, taktéž slovanský, článek ještě více zkrátí, oseká, přeloží do mateřštiny (to ještě nějaká slova přeložit zapomene, slovanské jazyky jsou si přece dosti podobné, že?) a jako zdroj uvede první článek. A to ještě způsobem: „Zdroj: [nazev zpravodajskeho deniku]“. I kdybyste hledali lupou, odkaz žádný. Chudák čtenář.

Budiž oběma webům alespoň k dobru to, že někde v textu se nachází něco jako „statistiky čerpány z výzkumu agentury XYZ". O HTML tagu <a href=““> </a> redaktoři asi nikdy neslyšeli, na tož pak o internetové etice. Proč také, je to práce navíc. Chudák čtenář.

Teď aby si ten chudák čtenář hledal související informace. Musí spustit Google, zadat jména oněch původních agentur a najít si oba výzkumy. Pokud má štěstí, najde je ještě na úvodní stránce. Trochu dost zbytečných kroků, nemyslíte? Nebylo by lepší, aby redaktoři prostě použili, pro internet tak typické, odkazy? Pro chudáka čtenáře určitě ano. Osobně bych za tím hledal lenost editorů, za druhé to, že jejich šéfové po nich nic takového nevyžadují a v neposlední řadě v myslích ukotvenou představu, že bychom o toho čtenáře mohli přijít. Mohl by odejít jinam, ale když mu tu příležitost nedáme, tak nezmizí, že?

Nicméně to byl jeden příklad z mnoha. Setkáváme se s tím denně.

Pohádky zpravidla končí happyendem, dnes vám to bohužel neslíbím. Situace taková byla a dlouho bude. Zpravodajské portály k tomu důvod nemají, peníze jim to navíc nepřinese žádné, tak proč? Chudák čtenář na první koleji nestojí.

Když se na to podíváme ze strany druhé, z pohledu chudáka čtenáře – co by si počal bez Google? Není vyhledávač nakonec ta hledaná „killer“ aplikace?

Centrum uvádí: Žena.cz a Bleskově.cz

Centrum v posledních dnech spustil 2 renovované přílohy svého vyhledávače. Žena.cz (čistě ženský časopis) a Bleskově.cz (jak píše Brambůrek, ryzí bulvár) dostaly novou a zajímavou podobu. Obě tyto sekce jsou si dosti podobné a je nutno dodat, že to vůbec není na škodu a dá se očekávat, že do podobného layoutu budou přeměňovány i další sekce.

„Těší nás, že do ženského obsahu na internetu vstupují naši portáloví konkurenti. Oproti nim máme zásadní výhodu ve vlastním obsahu, tříleté zkušenosti s provozováním www stránek pro ženy a samozřejmě v návštěvnosti – bezmála 200 tis.lidí za měsíc.“

Vánoce se blíží, jak to bude s dárky?

Internetové obchody v těchto dnech zažívají doslova boom, dveře se u nich opravdu netrhnou. V minulém roce před Vánoci lidé zaplatili více než dvě stě milionů korun. Letos se očekávají tržby až půl miliardy korun. Ve srovnání s ostatními měsíci rostou tržby v listopadu a prosinci až o 30-50%. Roční tržby e-shopů v Čechách obchodů zřejmě letos překonají rekordní hranici jedné miliardy (meziroční nárůst 25%).

Lidé nejčastěji nakupují na webu černou elektroniku, na odbyt jdou digitální fotoaparáty, DVD a MP3 přehrávače nebo videokamery. Žádaný sortiment se však mění, během roku se lidé více zaměřují na knihy, kompakty či bílou techniku.

Více na Lidovkách v článku Za dárky z webu utratí Češi miliony.

Ve Velké Británii se očekávají nákupy za 1,82 miliard liber (v přepočtu více než 80 miliard Kč). Celkem to loni činilo 40 miliard liber (1,8 bilionu Kč). V Americe to bylo o něco méně – 50 miliard dolarů (1,2 bilionu Kč), ale před Vánoci 12 miliard dolarů (288 miliard Kč). Podle Britské analytické firmy Continental Research letos nakoupí vánoční dárek přes internet na deset milionů dospělých, tj. o tři miliony více než loni. Více na M&M v článku Británie letos očekává deset miliónů vánočních nákupů po internetu.

Pokud stále nevíte a nemáte pro své blízké dárek, zkuste včera oficiálně spuštěný internetový obchod Computer s výpočetní technikou, kde naleznete vše od počítačových komponent až po digitální fotoaparáty. Více tisková zpráva.

Nejhorší shitty českého internetu

Nepravidelné upozorňování na špatné weby můžete čas od času nacházet v chlívku webdesign na POOH. Dnes byl ale oficiálně spuštěn nový projekt Nejhorší.cz, za kterým stojí Lumen Studio a za cíl si vytyčilo sestavovat žebříček nejhorších webů českého internetu. Líbí se mi, že se zaměřují především na stránky prezentující se na profesionální úrovni a nikoli na amatéry. V databázi nyní najdete „8 opravdových skvostů“ (u každého zajímavý komentář s možností hodnocení), mezi nimiž září např. OD Kotva nebo AAAAuto.

Co udělaly státní svátky s návštěvností webu

Web je vlastně jediné médium, které dokáže s relativní přesností říci vše o návštěvnících, jejich počtu a chování. Všechny ostatní sdělovací prostředky tato čísla spíše odhadují.

Můžete namítnout, že noviny a časopisy svou čtenost znají velmi dobře. Máte pravdu, ale už nedokáží říci, kolik lidí si přečetlo ten a ten článek, kolik lidí zaujala reklama, kdo si čte jejich plátky v práci, doma nebo ve škole, či kdo používá jejich výtisky k zcela jiným účelům než ke čtení.

Stejně tak televize pouze odhadují svou sledovanost na základě nějakého malého vzorku. Je to pouze statistický odhad. Nikdo z nich vám neřekne, kolik lidí u jejich programu usnulo či obědvalo, kolik lidí si při reklamách odběhlo, nebo jak je daný program zaujal. Web tohle dokáže celkem přesně.

Proto jsem pro Lupu napsal článek Co udělaly státní svátky s návštěvností webu?, ve kterém se dočtete o vlivu státních svátku října a listopadu na webovou návštěvnost.

Lupa to dělá ve státní svátky chytře – má volno. Je to to nejlepší, co můžete udělat. Když víte, že nebudete mít pro koho psát, nepište. Lidé mají po dlouhé době padla z práce a chtějí se odreagovat od každodenního stereotypu a spěchu. Věřte mi, že nemají náladu na vaše odborné a rádoby žurnalistické žvásty. Pokud na internet, tak na seznamku, chat, hry a svlečené děvy.

Piana přes internet neprodáte

V Profitu vyšel zajímavý rozhovor Jiřího Pinky s Zuzanou Ceralovou – Petrofovou Piana nejde prodávat přes internet.

Ve svých pětatřiceti letech se Zuzana Ceralová – Petrofová stala šéfkou největšího evropského výrobce klavírů, firmy Petrof. Pokračovatelka páté generace slavné podnikatelské rodiny se snaží razantními kroky vyvést společnost z krize. Chystá i vstup na trhy jihovýchodní Asie.

Možnosti vkládání dat do CMS

Jedním z mnoha aspektů, které musí CMS řešit, je uživatelské rozhraní. Konkrétně způsob, jakým lze vkládat nová data (texty novinek, kontakty do mailingových databází, obrázky do fotogalerie, apod.). V tomto článku se zaměřím především na možnosti, které pro vkládání dat nabízí běžný webový prohlížeč.

Formulářové stránky

S formuláři se na internetu střetáváme téměř na každém kroku. Od přihlašování na účet až po vyplňování osobních údajů v e-shopu. Jedná se o velice srozumitelný a jednoduchý způsob vkládání informací, který je snadno použitelný pro většinu běžných uživatelů. Jeho nevýhodou je zdlouhavé vyplňování, které činí formuláře s rostoucím objemem vkládaných dat prakticky nepoužitelné. Při vysokém počtu záznamů je tedy nutné zvážit jiné způsoby.

WYSIWYG editory

WYSIWYG editor by se dal označit za jakousi nadstavbu nad klasické formulářové prvky. Narozdíl od formulářů umožňuje WYSIWYG editor přímé vizuální formátování textu, bez znalosti značkovacího jazyka (např. HTML). Práci s ním lze přirovnat např. k textovému editoru. Vkládání dat je však až na formátování obdobné, jako je tomu u klasických formulářů.

Vkládání přes schránku (clipboard)

Pro mnoho uživatelů je, a pravděpodobně i v budoucnu stále bude nejpohodlnější připravovat obsah v důvěrně známém prostředí ověřených programů (nejčastěji v textovém či tabulkovém editoru) a následně jej překopírovat do redakčního systému (resp. do CMS). Tento přenos dat obvykle probíhá prostřednictvím schránky (clipboardu).

Jedná–li se nám pouze o zobrazení vkládaných dat, bude nám tento způsobe patrně vyhovovat. Složitější situace nastává, pokud bychom chtěli data do systému vložit strukturovaně, aby je bylo možné následně využít. Za tímto účelem je nutné vytvořit zvláštní importní filtr, který v okamžiku vkládání přes schránku do CMS provede s daty předem definované operace. To se může hodit např. v případě vkládání tabulek z Excelu tak, aby data z jednotlivých buněk skončila v příslušných „kolonkách“ CMS.

Import připravených formátů

V případě většího objemu dat může být výhodnější přesunout zpracování dat z klientského počítače na server. To ovšem vyžaduje přípravu dat v konkrétním závazném formátu (nejčastěji CSV – Comma Separated Value, hodnoty oddělené čárkami) a jejich umístění na server pomocí formuláře. Pokud se jedná o CSV, konverzi dokáže jednoduše provést i Excel, případně obdobný program. U jiných formátů je nutné optimálně vyřešit postup přípravy dat tak, aby byl jednoduchý a spolehlivý.

Výměna dat přes XML

S použitím stále oblíbenějšího formátu XML se posouváme v možnostech importu dat ještě dále. V porovnání s CSV můžeme v XML dokumentu zachytit velké množství doplňujících informací. Je například možné popsat a naimportovat celou databázi, což by s CSV bylo velmi obtížné, ne-li nemožné.

Další výhoda XML spočívá v jeho rostoucí rozšířenosti a možnosti spolupráce se zdroji dat třetích stran. Představte si například situaci, kdy bude možné vyměňovat si data ve formátu XML mezi Vaší webovou aplikací (např. elektronickým obchodem) a skladovým systémem dodavatelů. Úspora času a peněz může být s rostoucím počtem transakcí značná.

Přímé napojení na CMS (datová pumpa)

Na závěr zmíním plně automatickou variantu, která je vhodná pouze ve specifických případech. Jedná se o přímé napojení (jedno- či obousměrné) na databázi prezentace. Toto řešení vyžaduje umístění speciální aplikace u klienta, která dle naprogramovaných pravidel provádí aktualizace obsahu. Například aktualizace stavu skladů u internetového obchodu podle stavu v účetním programu je ideálním kandidátem pro využití datové pumpy.

Závěr

Při výběru vhodného CMS je nutné zvážit především praktické hledisko. Soustřeďte se především na to, zda daný produkt splňuje Vaše představy ohledně předpokládaného množství zpracovávaných dat a uživatelského komfortu. Je třeba si uvědomit, že CMS slouží především k redukci času a nákladů, které jsou spojeny s opakujícími se činnostmi. Vyšší investice v počátcích proto může v budoucnu přinést několikanásobně vyšší úspory při správě Vašeho webu.

Slovenská internetová televize TV IN od prosince

1.12. 2004 bude na Slovensku spuštěna nová internetová televize TV IN. Do února 2005 by měl probíhat zkušební provoz, potom pojedou na ostro. Televize by měla vysílat denně dva dvouhodinové bloky. Příjmy budou tvořit klasické TV spoty, reklamní bannery a prezentace obchodních značek v TV studiu. Internetová televize nepodléhá kontrole slovenské RRTV (rada pre rozhlasové a televízne vysielanie). Via iStrategie