Segmentation du texte chinois

Pour les langues chinoises, il n’y a aucun espace entre les caractères pour faciliter la segmentation. Avant d’utiliser le logiciel iTrameur pour faire l’analyse des corpus, il faut que l’on traite la segmentation du corpus chinois. On a réussi à segmenter les textes en chinois avec le logiciel Stanford Word Segmenter.

Étape 1 : Télécharger le logiciel

Voici les sites de téléchargement :

https://nlp.stanford.edu/software/segmenter.shtml#Download

https://nlp.stanford.edu/software/stanford-segmenter-4.2.0.zip

Fait attention de le mettre dans le répertoire PROGRAMMES, et le nom du répertoire stanford-segmenter est identique à celui dans le script du projet.

Étape 2 : Segmentation des textes dans le répertoire DUMP-TEXT 

La commande en utilisant le modèle « pku » est suivante :

./PROGRAMMES/stanford-segmenter/segment.sh pku ./DUMP-TEXT/1-1.txt UTF-8 0 > ./DUMP-TEXT/seg_1-1.txt

Voici le résultat :

***********************

 D’ailleurs, on a fait la segmentation en utilisant le modèle « ctd ».

Voici les résultats :

Par comparaison avec le modèle « ctd », le modèle « pku » donne des unités plus petites. De plus, le modèle « pku » se fonde sur le corpus du genre « journal » conforme à notre corpus.  De ce fait, on a choisi le modèle « pku ».

Laisser un commentaire

Concevoir un site comme celui-ci avec WordPress.com
Commencer