Le projet

Segmentation du texte chinois

Pour les langues chinoises, il n’y a aucun espace entre les caractères pour faciliter la segmentation. Avant d’utiliser le logiciel iTrameur pour faire l’analyse des corpus, il faut que l’on traite la segmentation du corpus chinois. On a réussi à segmenter les textes en chinois avec le logiciel Stanford Word Segmenter. Étape 1 : Télécharger le…

par zhongxinyi 19 janvier 2021

Nuage des mots

Un nuage des mots permet de visualiser nettement la fréquence des mots dans un texte donné. Grâce aux outils wordclouds, wordarts et weiciyun(pour le corpus chinois), nous avons produit trois nuages des mots pour chacun de nos corpus. wordcloud: https://www.wordclouds.com wordart : https://wordart.com weiciyun : https://www.weiciyun.com Voici les résultats : Nous pouvons constater que les…

par lufeiliu94 18 janvier 202120 janvier 2021

Concaténation des textes

Afin de analyser nos corpus sur ITrameur, il nous reste un dernier traitement à faire sur nos textes bruts extraits : la concaténation. Il s’agit de rassembler, pour chaque langue, tous les textes extraits dans un fichier. Chaque texte devrait être balisé afin de pouvoir se distinguer l’un de l’autre. Bien évidemment, nous n’allons pas…

par lufeiliu94 18 janvier 202120 janvier 2021

Les fonctions

Comme expliqué dans l’article « Vers la réalisation du script », afin d’éviter des répétions de certains étapes, nous avons regroupé ceux-ci dans des fonctions. Une fonction peut être créé ainsi : nom_de_la_fonction() { Les commandes à réalisées } Voici les fonctions que nous avons créés: Cette fonction est utilisée pour traiter les page urls français et…

par lufeiliu94 12 janvier 202120 janvier 2021

Lynx ou readability-cli ?

Dans notre projet, deux outils ont été utilisé pour extraire les textes à partir des pages htmls aspirées : lynx et readability-cli. Présentation détaillée de readability-cli : https://gitlab.com/gardenappl/readability-cli Les commandes avec lynx : lynx -dump -nolist -assume_charset= »encodage de l’url » -display_charset= »l’encodage de l’url » ./PAGES-ASPIREES/ »fichier html aspiré » Les commandes avec readability-cli : readable ./PAGES-ASPIREES/ »fichier html aspiré » -p…

par lufeiliu94 12 janvier 2021

Séance 6 – Minigrep sur macosx

Pour obtenir des contextes autour des mots choisis dans les textes récupérés des pages du corpus, on utilise le programme « minigrep-multilingue». A fin de l’éxecuter, les étapes suivantes doivent être réalisées. changer les permissions d’accès command : chomd a+x mini minigrepmultilingue-v2.2-regexp 2. installer une bibliothèque qui manque sur macosx command : tar xzf…

par zhongxinyi 11 janvier 202111 janvier 2021

Vers la réalisation du script

Afin de bien analyser les corpus que nous avons collectés pour la réalisation du projet, nous avons tout d’abord besoin d’un script qui permet de : . Traitements principaux Sauvegarder les urls dans des tables html. Récupérer les code https de chaque url Récupérer l’encodage de chaque url Sous traitements Extraire le texte brut de…

par lufeiliu94 1 janvier 202112 janvier 2021

Chargement en cours…

Un problème est survenu. Veuillez actualiser la page et/ou essayer à nouveau.

Abonnez-vous à mon blog

Recevez directement le nouveau contenu dans votre boîte de réception.