Segmentation du texte chinois

Pour les langues chinoises, il n’y a aucun espace entre les caractères pour faciliter la segmentation. Avant d’utiliser le logiciel iTrameur pour faire l’analyse des corpus, il faut que l’on traite la segmentation du corpus chinois. On a réussi à segmenter les textes en chinois avec le logiciel Stanford Word Segmenter. Étape 1 : Télécharger leLire la suite « Segmentation du texte chinois »

Nuage des mots

Un nuage des mots permet de visualiser nettement la fréquence des mots dans un texte donné. Grâce aux outils wordclouds, wordarts et weiciyun(pour le corpus chinois), nous avons produit trois nuages des mots pour chacun de nos corpus. wordcloud: https://www.wordclouds.com wordart : https://wordart.com weiciyun : https://www.weiciyun.com Voici les résultats : Nous pouvons constater que lesLire la suite « Nuage des mots »

Concaténation des textes

Afin de analyser nos corpus sur ITrameur, il nous reste un dernier traitement à faire sur nos textes bruts extraits : la concaténation. Il s’agit de rassembler, pour chaque langue, tous les textes extraits dans un fichier. Chaque texte devrait être balisé afin de pouvoir se distinguer l’un de l’autre. Bien évidemment, nous n’allons pasLire la suite « Concaténation des textes »

Les fonctions

Comme expliqué dans l’article « Vers la réalisation du script », afin d’éviter des répétions de certains étapes, nous avons regroupé ceux-ci dans des fonctions. Une fonction peut être créé ainsi : nom_de_la_fonction() { Les commandes à réalisées } Voici les fonctions que nous avons créés: Cette fonction est utilisée pour traiter les page urls français etLire la suite « Les fonctions »

Séance 6 – Minigrep sur macosx

Pour obtenir des contextes autour des mots choisis dans les textes récupérés des pages du corpus, on utilise le programme « minigrep-multilingue».   A fin de l’éxecuter, les étapes suivantes doivent être réalisées. changer les permissions d’accès command : chomd a+x mini minigrepmultilingue-v2.2-regexp 2. installer une bibliothèque qui manque sur macosx command : tar xzfLire la suite « Séance 6 – Minigrep sur macosx »

Vers la réalisation du script

Afin de bien analyser les corpus que nous avons collectés pour la réalisation du projet, nous avons tout d’abord besoin d’un script qui permet de : . Traitements principaux Sauvegarder les urls dans des tables html. Récupérer les code https de chaque url Récupérer l’encodage de chaque url Sous traitements Extraire le texte brut deLire la suite « Vers la réalisation du script »

Concevoir un site comme celui-ci avec WordPress.com
Commencer