Segmentation du texte chinois
Pour les langues chinoises, il n’y a aucun espace entre les caractères pour faciliter la segmentation. Avant d’utiliser le logiciel iTrameur pour faire l’analyse des corpus, il faut que l’on traite la segmentation du corpus chinois. On a réussi à segmenter les textes en chinois avec le logiciel Stanford Word Segmenter. Étape 1 : Télécharger le…
Nuage des mots
Un nuage des mots permet de visualiser nettement la fréquence des mots dans un texte donné. Grâce aux outils wordclouds, wordarts et weiciyun(pour le corpus chinois), nous avons produit trois nuages des mots pour chacun de nos corpus. wordcloud: https://www.wordclouds.com wordart : https://wordart.com weiciyun : https://www.weiciyun.com Voici les résultats : Nous pouvons constater que les…
Concaténation des textes
Afin de analyser nos corpus sur ITrameur, il nous reste un dernier traitement à faire sur nos textes bruts extraits : la concaténation. Il s’agit de rassembler, pour chaque langue, tous les textes extraits dans un fichier. Chaque texte devrait être balisé afin de pouvoir se distinguer l’un de l’autre. Bien évidemment, nous n’allons pas…
Les fonctions
Comme expliqué dans l’article « Vers la réalisation du script », afin d’éviter des répétions de certains étapes, nous avons regroupé ceux-ci dans des fonctions. Une fonction peut être créé ainsi : nom_de_la_fonction() { Les commandes à réalisées } Voici les fonctions que nous avons créés: Cette fonction est utilisée pour traiter les page urls français et…
Lynx ou readability-cli ?
Dans notre projet, deux outils ont été utilisé pour extraire les textes à partir des pages htmls aspirées : lynx et readability-cli. Présentation détaillée de readability-cli : https://gitlab.com/gardenappl/readability-cli Les commandes avec lynx : lynx -dump -nolist -assume_charset= »encodage de l’url » -display_charset= »l’encodage de l’url » ./PAGES-ASPIREES/ »fichier html aspiré » Les commandes avec readability-cli : readable ./PAGES-ASPIREES/ »fichier html aspiré » -p…
Séance 6 – Minigrep sur macosx
Pour obtenir des contextes autour des mots choisis dans les textes récupérés des pages du corpus, on utilise le programme « minigrep-multilingue». A fin de l’éxecuter, les étapes suivantes doivent être réalisées. changer les permissions d’accès command : chomd a+x mini minigrepmultilingue-v2.2-regexp 2. installer une bibliothèque qui manque sur macosx command : tar xzf…
Vers la réalisation du script
Afin de bien analyser les corpus que nous avons collectés pour la réalisation du projet, nous avons tout d’abord besoin d’un script qui permet de : . Traitements principaux Sauvegarder les urls dans des tables html. Récupérer les code https de chaque url Récupérer l’encodage de chaque url Sous traitements Extraire le texte brut de…
Séance 3 – numéro/HTML
Xinyi ZHONG Excercice 4: ajouter une colonne supplémentaire au tableau
Chargement en cours…
Un problème est survenu. Veuillez actualiser la page et/ou essayer à nouveau.
Abonnez-vous à mon blog
Recevez directement le nouveau contenu dans votre boîte de réception.