.: Rychlé menu: navigace .:. odkazy .:. kategorie .:. vyhledávání .:. archivy .:. autoři :.  

17.11.2003



Potřeboval jsem nějak parsovat RSS/RDF zdroje a zkusil jsem lastRSS Vojtěcha Semeckého. Je skvělá, ale několik věcí mi na ní nevyhovovalo, proto jsem ji upravil, rozšířil a nabízím ji.

V první řadě mi nevyhovovala knihovna AutoCzech. Při zjišťování zdrojového kódování se dopouštěla chyb, proto jsem ji nahradil svojí knihovnou UTFCONV a doplnil jsem možnost explicitního určení kódování.

Dále jsem zjistil, že knihovna není schopna parsovat RSS 2.0 soubory ani RDF soubory, ve kterých se vyskytují atributy dc:....

Při ukládání do cache v kódování UTF-8 se mi stalo, že některé uložené hodnoty nešlo získat zpět (stalo se mi to u RSS z iHNed).

Navíc jsem potřeboval zjistit u každého příspěvku, zda je starý nebo nový, tedy jestli už je uložen v cache.

Sednul jsem si tedy k tomu zdrojovému kódu a tyhle věci jsem změnil, doupravil a přeprogramoval.

Všechny své připomínky jsem poslal autorovi lastRSS, který mi odpověděl, že už má novou verzi připravenou a že se na mé úpravy podívá. Dal mi zároveň souhlas s tím, abych na jeho lastRSS založil novou vývojovou větev, kterou vám tímto představuji. Jmenuje se finalRSS a nijak se samosebou netajím tím, že je postavena na skvělé lastRSS.

Zvolil jsem cestu nové knihovny namísto úprav staré, protože předpokládám, že další vývoj povedu asi trošku jiným směrem než se bude ubírat vývoj lastRSS. Chystám například i parser pro stránky, aby bylo možné načítat obsah i z těch serverů, které nenabízejí RSS/RDF.

Pokud máte zájem, můžete si finalRSS stáhnout, vyzkoušet a používat — je šířena pod licencí GNU GPL a je na 95% kompatibilní s lastRSS (těch 5% jde na vrub jiné knihovně pro převod češtiny).

Ještě jednou děkuji Vojtěchu Semeckému za skvělou knihovnu a za svolení, byť formální, s vytvořením další vývojové větve.

Aktualizace: Pro Adama Javůrka (viz komentáře) jsem udělal úpravu, která umožňuje číst a parsovat zdroje ve formátu CSV. Jsou přednastaveny tři zdroje (volny, pravednes a krátký pravednes) a můžete si i nadefinovat vlastní CSV formát v případě, že někdo nabízí obsah v nějaké nestandardní podobě.


Zadal Arthur Dent, 17.11.2003 23:05:52, 13 komentářů...,
TrackBack URL tohoto příspěvku je http://blog.maly.cz/tb.php/589

Zpět na článek

HotLinks
Zobrazit komentáře v chronologickém pořadí

 - Adam Javůrek (web)

lastRSS je skvělé. Hledal jsem, jestli existuje nějaká "věc", která umožní naprostému laikovi (který napr. o php ví jen to, že ho jeho hosting podporuje) udělat si svůj primitivní agregátor nastavených rss kanálů.
Chinin mi doporučil lastRSS a já byl velmi překvapený, že je to opravdu tak nesmírně jednoduché nastavit...

Narazil jsem na zmíněný problém s rdf a pan Semecký mi poslal onu novou verzi, která funguje dobře. Na mé velmi skromné účely to rozhodně stačí (vlastně jsem si chtěl jenom dokázat, že to dokážu {big grin}

Ale na finalRSS jsem samozřejmě velmi zvědavý. Byl bych rád, kdyby existovalo něco, co umí přečíst i soubory jako např. freemusic.cz/pravednes.php, ale nevím, jestli je to vůbec možné
    

Re: - Arthur Dent

No... a to je přesně to, co chci do finalRSS implementovat. To je to co jsem myslel slovy "Chystám parser ... aby bylo možné načítat obsah i z těch serverů, které nenabízejí RSS/RDF" {smile}
    

Re: - Adam Javůrek (web)

Já v9m {wink} To já hlavně chtěl vnutit ten příklad s pravednes.php, abych měl zajištěno, že vám to bude vrtat hlavou a vy vymyslíte podporu na tenhle konkrétní typ souboru [jinak asi velmi málo používaný...ale pssst] {wink})
    

Re: - myshpa

neni to pravednes.php "prachsprosty" CSV ? {smile}
    

Re: - Arthur Dent

Je. Stejně jako to co chce Volny atd. Každopádně už je to hotové a i s ukázkama to je na netu (http://blog.maly.cz/finalrss/)

Speciálně pro Adama Javůrka tam jsou ukázky parsování zdrojů z Muzikusu a FreeMusic.
    

Re: - Adam Javůrek (web)

Netuším, co je to CSV, ale je skvělé, že to funguje {smile} Díky moc, Arthure.
    

Re: - Arthur Dent

Za málo. Další nápady vítány...
    

Re: - Arthur Dent

Pro šílence, co touží mít zprávy z webů, kde nikdy o RSS a spol. neslyšeli, právě teď testuju HTML parser, který proleze stránku daného webu a "vycucne" články.

Je to ale pěkný "maso"!
    

Re: - rony (web)

na take weby by som chcel mat nastroj, ktory nakoniec vyrobi nezavisly RSS zdroj {wink}
    

Re: - Arthur Dent

Přesně to teď zkouším...
    


Re: - OttY (web)

Uf. To maso uznavam. Len si neviem predstavit, ako by to fungovalo. Pre kazdy web musis predsa optimalizovat ten parser. Ja sa s podobnymi vecami zaoberam tiez asi posledny mesiac. Ved rony vie{wink}
    

Re: - Arthur Dent (web)

Jaky maso? {smile}
    


K tomu FreeMusic.cz/pravednes.php - Vojtěch Semecký (web)

Ja si stejne myslim, ze budoucnost je v tom RSS a ne v tech ruznych textovych vypisech. A pokud vim, tak Pravednes.cz uz dnes take preferuje RSS.

A pokud potrebujete export clanku z FreeMusic.cz, tak ten ma take RSS export: [www.freemusic.cz/rss.php]
    
HotLinks
Zpět na článek