Le script est codé en perl, il prend en entrée un fichier opml, parse celui-ci, récupère les urls des flux auxquels le possesseur du fichier est abonnés et télécharge les pages html associées à ces flux. Celles-ci sont ensuite parsées a leurs tour pour en extraire les liens. Une fois ceci fait pour l'ensemble des flux, un graphe est construit grâce à ces liens, celui-ci contient l'ensemble des flux de départs ainsi que toutes les pages trouvées à partir de ceux-ci.
Une première sélection est réalisée sur ces nouvelles pages : toutes les pages qui ne sont pointées que par un seul flux de la liste de départ sont supprimés du graphe ce qui restreint énormément le nombre de site trouvés. Une fois cette première liste de propositions établie les pages correspondantes sont à leurs tour téléchargées pour vérifier que celles-ci permettent de s'abonner via rss ou atom, si ce n'est pas le cas celles-ci sont supprimées. Enfin, un dernier détails heuristique d'importance, une black liste de site a forte connectivité est utilisée avant toute prise en compte d'un lien; cette black liste permet de sortir de la carte tous les sites de type google, microsoft... Enfin, tout nœud ne possédant pas de liends avec d'autres noeuds n'est pas représenté.
D'un point de vue plus technique, le script a été réalisé en perl, graphviz a été utilisé pour spatialiser le graphe (avec neato qui utilise un algorithme de type spring) et l'exporter en svg. Finalement les outils proposés sur carto.net ont été utilisés pour rendre ce svg navigable et zoomable.
No comments:
Post a Comment