Exercices

Cette page est dédiée aux exercices que nous avons réalisés en cours.

Segmentation du texte chinois

Pour les langues chinoises, il n’y a aucun espace entre les caractères pour faciliter la segmentation. Avant d’utiliser le logiciel iTrameur pour faire l’analyse des corpus, il faut que l’on traite la segmentation du corpus chinois. On a réussi à segmenter les textes en chinois avec le logiciel Stanford Word Segmenter. Étape 1 : Télécharger le…

Nuage des mots

Un nuage des mots permet de visualiser nettement la fréquence des mots dans un texte donné. Grâce aux outils wordclouds, wordarts et weiciyun(pour le corpus chinois), nous avons produit trois nuages des mots pour chacun de nos corpus. wordcloud: https://www.wordclouds.com wordart : https://wordart.com weiciyun : https://www.weiciyun.com Voici les résultats : Nous pouvons constater que les…

Concaténation des textes

Afin de analyser nos corpus sur ITrameur, il nous reste un dernier traitement à faire sur nos textes bruts extraits : la concaténation. Il s’agit de rassembler, pour chaque langue, tous les textes extraits dans un fichier. Chaque texte devrait être balisé afin de pouvoir se distinguer l’un de l’autre. Bien évidemment, nous n’allons pas…

Les fonctions

Comme expliqué dans l’article « Vers la réalisation du script », afin d’éviter des répétions de certains étapes, nous avons regroupé ceux-ci dans des fonctions. Une fonction peut être créé ainsi : nom_de_la_fonction() { Les commandes à réalisées } Voici les fonctions que nous avons créés: Cette fonction est utilisée pour traiter les page urls français et…

Chargement en cours…

Un problème est survenu. Veuillez actualiser la page et/ou essayer à nouveau.

Recevez directement le nouveau contenu dans votre boîte de réception.

Concevoir un site comme celui-ci avec WordPress.com
Commencer