Lynx ou readability-cli ?

Dans notre projet, deux outils ont été utilisé pour extraire les textes à partir des pages htmls aspirées : lynx et readability-cli.

Présentation détaillée de readability-cli : https://gitlab.com/gardenappl/readability-cli

Les commandes avec lynx :

lynx -dump -nolist -assume_charset= »encodage de l’url » -display_charset= »l’encodage de l’url » ./PAGES-ASPIREES/ »fichier html aspiré »

Les commandes avec readability-cli :

readable ./PAGES-ASPIREES/ »fichier html aspiré » -p text-content

Si ces deux outils ont été utilisés, c’est parce que chacun présente certains avantages et inconvénients.

LynxReadability-cli
AvantagesExtraction est possible tant que les pages urls sont bien récupérées.Avec seulement l’option « -p text-content », les textes sont extraits plus proprement, sans les informations inutiles. De plus, les textes extraits sont sauvegardé directement en UTF-8, sans besoin de transcodage.
InconvénientsLes informations non nécessaires sont également extraites. Si l’encodage de la page url n’est pas en UTF-8, un transcodage est nécessaire pour obtenir un texte extrait en UTF-8. Tous les textes ne peuvent pas être extraits, même si leurs pages urls ont été aspirées avec succès.

Quelques exemples :

Une page url chinois n’a pas pu être extraite par readability-cli

Mais l’extraction fonctionne avec lynx :

Prenons une page url pour laquelle les deux outils fonctionnent :

On peut observer qu’avec readability-cli, on peut obtenir un corpus plus propre.

Etant donné que readability-cli a une meilleure performance sur les urls français et anglais et que lynx fonctionne mieux sur la plupart d’urls chinois (sauf ceux qui ne sont pas encodé en UTF-8). J’ai appliqué lynx seulement sur les urls chinois en UTF-8, pour les restes, laissons readability-cli faire son travail !

Laisser un commentaire

Concevoir un site comme celui-ci avec WordPress.com
Commencer