Dans notre projet, deux outils ont été utilisé pour extraire les textes à partir des pages htmls aspirées : lynx et readability-cli.
Présentation détaillée de readability-cli : https://gitlab.com/gardenappl/readability-cli
Les commandes avec lynx :
lynx -dump -nolist -assume_charset= »encodage de l’url » -display_charset= »l’encodage de l’url » ./PAGES-ASPIREES/ »fichier html aspiré »
Les commandes avec readability-cli :
readable ./PAGES-ASPIREES/ »fichier html aspiré » -p text-content
Si ces deux outils ont été utilisés, c’est parce que chacun présente certains avantages et inconvénients.
Lynx | Readability-cli | |
Avantages | Extraction est possible tant que les pages urls sont bien récupérées. | Avec seulement l’option « -p text-content », les textes sont extraits plus proprement, sans les informations inutiles. De plus, les textes extraits sont sauvegardé directement en UTF-8, sans besoin de transcodage. |
Inconvénients | Les informations non nécessaires sont également extraites. Si l’encodage de la page url n’est pas en UTF-8, un transcodage est nécessaire pour obtenir un texte extrait en UTF-8. | Tous les textes ne peuvent pas être extraits, même si leurs pages urls ont été aspirées avec succès. |
Quelques exemples :
Une page url chinois n’a pas pu être extraite par readability-cli
Mais l’extraction fonctionne avec lynx :
Prenons une page url pour laquelle les deux outils fonctionnent :
On peut observer qu’avec readability-cli, on peut obtenir un corpus plus propre.
Etant donné que readability-cli a une meilleure performance sur les urls français et anglais et que lynx fonctionne mieux sur la plupart d’urls chinois (sauf ceux qui ne sont pas encodé en UTF-8). J’ai appliqué lynx seulement sur les urls chinois en UTF-8, pour les restes, laissons readability-cli faire son travail !