Une étude a été réalisée sur 100 patients d’un service hospitalier afin de vériér la relation entre le tabac et les problèmes pulmonaires. Pour cela, nous avons demandé à chaque personne son âge, son sexe, sa situation familiale (calibataire, mariée,…), sa consommation de tabac (nombre de cigarettes par jour), la présence de tabagisme passif, et la présence de probléme pulmonaire (par exemple cancer du poumon ou broncho-pneumopathie chronique obstructive) chez cette personne. Les données sont enregistrées dans le fichier tabac.csv.
tableau = read.table("tabac.csv", sep=",", header=TRUE)
attach(tableau)
Lesd options de la fonction read.table() parmi les plus importantes :
header = est-ce que la première ligne contient le nom des variables ? Prend un argument logique (True/T ou False/F).
sep = comment sont séparées les colonnes dans le fichier texte, est-ce une tabulation, des points-virgules,
summary(tableau)
## ID age sexe situation
## Min. : 0.00 Min. :20.00 femme:46 celibataire:39
## 1st Qu.:24.75 1st Qu.:29.75 homme:54 en_couple :36
## Median :49.50 Median :41.00 marie :20
## Mean :49.50 Mean :41.38 veuf : 5
## 3rd Qu.:74.25 3rd Qu.:52.25
## Max. :99.00 Max. :64.00
## tabac tabagisme_passif probleme_pulmonaire
## Min. : 0.0 Mode :logical Mode :logical
## 1st Qu.: 0.0 FALSE:84 FALSE:65
## Median : 0.0 TRUE :16 TRUE :35
## Mean : 3.9
## 3rd Qu.: 9.0
## Max. :14.0
fumeur <- (tabac > 0)
n=nrow(tableau)
ni=table(fumeur); fi=ni/n
nj=table(probleme_pulmonaire); fj=nj/n
barplot(fi,main="Representation de la variable fumeur")
barplot(fj,main="Representation de la variable probleme_pulmonaire")
nij=table(fumeur,probleme_pulmonaire)
fij=nij/n; fij
## probleme_pulmonaire
## fumeur FALSE TRUE
## FALSE 0.46 0.05
## TRUE 0.19 0.30
barplot(fij,xlab="probleme_pulmonaire",ylab="fumeur")
chisq.test(probleme_pulmonaire, fumeur)
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: probleme_pulmonaire and fumeur
## X-squared = 26.828, df = 1, p-value = 2.224e-07
Quel est le test réalisé ? Que peut-on en conclure ?
chisq.test(situation, fumeur)
## Warning in chisq.test(situation, fumeur): Chi-squared approximation may be
## incorrect
##
## Pearson's Chi-squared test
##
## data: situation and fumeur
## X-squared = 10.867, df = 3, p-value = 0.01247
Pourquoi cela produit-il le message d’avis l’approximation du Chi-2 est peut-être incorrecte ?
Regardons le tableau des effectifs observées
table(situation,fumeur)
## fumeur
## situation FALSE TRUE
## celibataire 14 25
## en_couple 21 15
## marie 15 5
## veuf 1 4
On peut remarquer qu’il y a des effectifs trop faibles dans la catégorie veuf. Il faudrait plus d’observations ou bien ne pas considérer les veufs dans l’etude.
situation2=situation[situation!="veuf"]
fumeur2=fumeur[situation!="veuf"]
chisq.test(situation2, fumeur2)
##
## Pearson's Chi-squared test
##
## data: situation2 and fumeur2
## X-squared = 8.864, df = 2, p-value = 0.01189
plot(factor(fumeur2), factor(situation2), xlab="fumeur",ylab="situation")
plot(factor(situation2),factor(fumeur2), ylab="fumeur",xlab="situation")
Commenter les résultats.
table(fumeur)
## fumeur
## FALSE TRUE
## 51 49
chisq.test(table(fumeur),p=c(1-0.318,0.318))
##
## Chi-squared test for given probabilities
##
## data: table(fumeur)
## X-squared = 13.641, df = 1, p-value = 0.0002213
Il y a une difference significative. Ici, nous avons 49% de fumeurs dans l’echantillon, ce qui est significativement superieur a la moyenne national de 31,8%. Cela peut s’expliquer car les fumeurs ont plus de problemes de sante et sont donc plus souvent à l’hopital.