library(tidyverse)
Nous considérons les données salaires.tex (déjà étudié dans le TP1 (partie 1)).
salary : salaire brut actuel en $ par an
salbegin : salaire de départ en $ par an
minority : appartenance à une minorité (Non, Oui)
jobtime : nombre de mois depuis l’entrée dans l’entreprise
prevexp : nombre de mois de travail avant l’entrée dans l’entreprise
educ : nombre d’années d’étude
sex : H,F
## salary salbegin jobtime prevexp
## Min. : 15750 Min. : 9000 Min. :63.00 Min. : 0.00
## 1st Qu.: 24000 1st Qu.:12488 1st Qu.:72.00 1st Qu.: 19.25
## Median : 28875 Median :15000 Median :81.00 Median : 55.00
## Mean : 34420 Mean :17016 Mean :81.11 Mean : 95.86
## 3rd Qu.: 36938 3rd Qu.:17490 3rd Qu.:90.00 3rd Qu.:138.75
## Max. :135000 Max. :79980 Max. :98.00 Max. :476.00
## educ minority sex
## Min. : 8.00 Non:370 H:258
## 1st Qu.:12.00 Oui:104 F:216
## Median :12.00
## Mean :13.49
## 3rd Qu.:15.00
## Max. :21.00
ggplot(data = Salaire, aes(x=sex)) + geom_bar()
ggplot(data = Salaire, aes(x=factor(1),y=salary))+geom_boxplot()
ggplot(data = Salaire, aes(x=salbegin,y=salary)) +
geom_point()
cor(salary,salbegin)
## [1] 0.8801175
cor.test(salary,salbegin,method="pearson")
##
## Pearson's product-moment correlation
##
## data: salary and salbegin
## t = 40.276, df = 472, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.8580696 0.8989267
## sample estimates:
## cor
## 0.8801175
Préciser les hypothèse nulle et alternative du test.
Donner les conditions d’application du test.
Sont-elles vérifiées ? Relever la valeur observée de la statistique de test et sa p-valeur. Que pouvez-vous conclure au risque 5% ?
#Tableau de contingence
nij=table(Salaire$minority,Salaire$sex)
nij
##
## H F
## Non 194 176
## Oui 64 40
#Commandes directes avec la fonction chisq.test
test=chisq.test(nij)
test$observed
##
## H F
## Non 194 176
## Oui 64 40
test$expected
##
## H F
## Non 201.39241 168.60759
## Oui 56.60759 47.39241
test
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: nij
## X-squared = 2.3592, df = 1, p-value = 0.1245
modele_simple <- lm (salary ~ salbegin)
modele_simple$coefficients
## (Intercept) salbegin
## 1928.20576 1.90945
1928.20576 + 1.90945 * 27000
## [1] 53483.36
head(modele_simple$fitted.values, 10)
## 1 2 3 4 5 6 7 8
## 53483.35 37730.39 24841.60 27132.94 42026.65 27705.78 37730.39 20545.34
## 9 10
## 26273.69 27705.78
head(Salaire$salary,10)
## [1] 57000 40200 21450 21900 45000 32100 36000 21900 27900 24000
Salaire$salary[1:10] - modele_simple$fitted.values[1:10]
## 1 2 3 4 5 6 7
## 3516.652 2469.612 -3391.603 -5232.942 2973.350 4394.223 -1730.388
## 8 9 10
## 1354.659 1626.310 -3705.777
View(modele_simple$residuals)
View(cbind(Salaire$salary, modele_simple$fitted.values,modele_simple$residuals))