devoir4

remise du devoir 4

coding utf-8

faire afficher les 50 paires de mots qui se trouvent le plus souvent dans les chronique de Richard Martineau.

import csv

pour calculer la fréquence

from collections import Counter

import nltk

pour la punctuation

import string

pour tokeniser les éléments

from nltk.tokenize import word_tokenize

afin d'aller à la racine des mots

from nltk.stem import SnowballStemmer

pour le travail des mots vides

from nltk.corpus import stopwords

ajouter mon fichier CSV

analyse = "martino.csv"

faire opérer la lecture du fichier

c = open(analyse)

manipulations = csv.reader(c)

next(manipulations)

for inter in manipulations

tokens = word_tokenize(inter[50])

aller à la racine

fr = SnowballStemmer('french') racines = [fr.stem(mot)for mot in word_tokenize(inter[50])] print(racines)

tokens = [mot for mot in word_tokenize(inter[50])if mot not in stopwords.words('french')]

print(tokens)

retranchement de la ponctuation

tokens = [mot for mot in word_tokenize(inter[50])if mot not in stopwords.words('french') and mot not in string.punctuation]

print(tokens)

calculer le nombre de fréquence par mot

mots = [fr.stem(mot)for mot in word_tokenize(inter[50])if mot not in stopwords.words('french') and mot not in string.punctuation]

print(mots)

boucle pour le mot islam

for mot in mots: "islam".append(mot)

freq = Counter("islam")

freq = Counter("islam") print(freq.most_common(50)) print(len("islam"))

boucle pour le mot musulman

for mot in mots: "musulm".append(mot)

freq = Counter("musulm")

freq = Counter("musulm") print(freq.most_common(50)) print(len("musulm"))

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
README.md		README.md
devoir4-JHR.py		devoir4-JHR.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

devoir4

faire afficher les 50 paires de mots qui se trouvent le plus souvent dans les chronique de Richard Martineau.

pour calculer la fréquence

pour la punctuation

pour tokeniser les éléments

afin d'aller à la racine des mots

pour le travail des mots vides

ajouter mon fichier CSV

faire opérer la lecture du fichier

aller à la racine

retranchement de la ponctuation

calculer le nombre de fréquence par mot

boucle pour le mot islam

boucle pour le mot musulman

About

Releases

Packages

Languages

Journalisme-UQAM/devoir4-catherinesavoie

Folders and files

Latest commit

History

Repository files navigation

devoir4

faire afficher les 50 paires de mots qui se trouvent le plus souvent dans les chronique de Richard Martineau.

pour calculer la fréquence

pour la punctuation

pour tokeniser les éléments

afin d'aller à la racine des mots

pour le travail des mots vides

ajouter mon fichier CSV

faire opérer la lecture du fichier

aller à la racine

retranchement de la ponctuation

calculer le nombre de fréquence par mot

boucle pour le mot islam

boucle pour le mot musulman

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages