Le projet

Segmentation du texte chinois

Pour les langues chinoises, il n’y a aucun espace entre les caractères pour faciliter la segmentation. Avant d’utiliser le logiciel iTrameur pour faire l’analyse des corpus, il faut que l’on traite la segmentation du corpus chinois. On a réussi à segmenter les textes en chinois avec le logiciel Stanford Word Segmenter. Étape 1 : Télécharger le…

Concaténation des textes

Afin de analyser nos corpus sur ITrameur, il nous reste un dernier traitement à faire sur nos textes bruts extraits : la concaténation. Il s’agit de rassembler, pour chaque langue, tous les textes extraits dans un fichier. Chaque texte devrait être balisé afin de pouvoir se distinguer l’un de l’autre. Bien évidemment, nous n’allons pas…

Les fonctions

Comme expliqué dans l’article « Vers la réalisation du script », afin d’éviter des répétions de certains étapes, nous avons regroupé ceux-ci dans des fonctions. Une fonction peut être créé ainsi : nom_de_la_fonction() { Les commandes à réalisées } Voici les fonctions que nous avons créés: Cette fonction est utilisée pour traiter les page urls français et…

Lynx ou readability-cli ?

Dans notre projet, deux outils ont été utilisé pour extraire les textes à partir des pages htmls aspirées : lynx et readability-cli. Présentation détaillée de readability-cli : https://gitlab.com/gardenappl/readability-cli Les commandes avec lynx : lynx -dump -nolist -assume_charset= »encodage de l’url » -display_charset= »l’encodage de l’url » ./PAGES-ASPIREES/ »fichier html aspiré » Les commandes avec readability-cli : readable ./PAGES-ASPIREES/ »fichier html aspiré » -p…

Séance 6 – Minigrep sur macosx

Pour obtenir des contextes autour des mots choisis dans les textes récupérés des pages du corpus, on utilise le programme « minigrep-multilingue».   A fin de l’éxecuter, les étapes suivantes doivent être réalisées. changer les permissions d’accès command : chomd a+x mini minigrepmultilingue-v2.2-regexp 2. installer une bibliothèque qui manque sur macosx command : tar xzf…

Vers la réalisation du script

Afin de bien analyser les corpus que nous avons collectés pour la réalisation du projet, nous avons tout d’abord besoin d’un script qui permet de : . Traitements principaux Sauvegarder les urls dans des tables html. Récupérer les code https de chaque url Récupérer l’encodage de chaque url Sous traitements Extraire le texte brut de…

Chargement en cours…

Un problème est survenu. Veuillez actualiser la page et/ou essayer à nouveau.


Abonnez-vous à mon blog

Recevez directement le nouveau contenu dans votre boîte de réception.

Concevoir un site comme celui-ci avec WordPress.com
Commencer