library(tidyverse)

Exercice

Nous considérons les données salaires.tex (déjà étudié dans le TP1 (partie 1)).

  1. Relever : le salaire actuel en dessous duquel se situent 50% des employés de l’échantillon et le salaire actuel au-dessus duquel se situent 25% des employés de l’échantillon.
##      salary          salbegin        jobtime         prevexp      
##  Min.   : 15750   Min.   : 9000   Min.   :63.00   Min.   :  0.00  
##  1st Qu.: 24000   1st Qu.:12488   1st Qu.:72.00   1st Qu.: 19.25  
##  Median : 28875   Median :15000   Median :81.00   Median : 55.00  
##  Mean   : 34420   Mean   :17016   Mean   :81.11   Mean   : 95.86  
##  3rd Qu.: 36938   3rd Qu.:17490   3rd Qu.:90.00   3rd Qu.:138.75  
##  Max.   :135000   Max.   :79980   Max.   :98.00   Max.   :476.00  
##       educ       minority  sex    
##  Min.   : 8.00   Non:370   H:258  
##  1st Qu.:12.00   Oui:104   F:216  
##  Median :12.00                    
##  Mean   :13.49                    
##  3rd Qu.:15.00                    
##  Max.   :21.00
  1. Commenter les grafiques suivantes :
ggplot(data = Salaire, aes(x=sex)) + geom_bar()

ggplot(data = Salaire, aes(x=factor(1),y=salary))+geom_boxplot()

ggplot(data = Salaire, aes(x=salbegin,y=salary)) +
  geom_point()

  1. Peut-on conclure, au risque d’erreur \(\alpha=5\%,\) qu’il existe une liaison entre les variables salary et salbegin ?
cor(salary,salbegin)
## [1] 0.8801175
cor.test(salary,salbegin,method="pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  salary and salbegin
## t = 40.276, df = 472, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.8580696 0.8989267
## sample estimates:
##       cor 
## 0.8801175
  1. On étudie simultanément le sexe et l’appartenance à une minorité.On veut tester l’existence d’une liaison entre le sexe et l’appartenance à une minorité chez les salariés de l’entreprise.
#Tableau de contingence 
nij=table(Salaire$minority,Salaire$sex)
nij
##      
##         H   F
##   Non 194 176
##   Oui  64  40
#Commandes directes avec la fonction chisq.test
test=chisq.test(nij)
test$observed
##      
##         H   F
##   Non 194 176
##   Oui  64  40
test$expected
##      
##               H         F
##   Non 201.39241 168.60759
##   Oui  56.60759  47.39241
test
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  nij
## X-squared = 2.3592, df = 1, p-value = 0.1245

Régression linéaire (motivation)

  1. Predire la variable salary en fonction de salbegin. Ajuster un modèle de régression linéaire simple.
modele_simple <- lm (salary ~ salbegin) 
  1. Relever les valeurs estimées de coefficients de la droite. Interpreter la valeur estimée de la pente de la droite.
modele_simple$coefficients
## (Intercept)    salbegin 
##  1928.20576     1.90945
  1. Predire le salaire actual d’un employé qui gagne 27000
1928.20576 + 1.90945 * 27000
## [1] 53483.36
  1. Predire la valeur du salary pour les 10 premiers individus
head(modele_simple$fitted.values, 10)
##        1        2        3        4        5        6        7        8 
## 53483.35 37730.39 24841.60 27132.94 42026.65 27705.78 37730.39 20545.34 
##        9       10 
## 26273.69 27705.78
  1. Afficher les valeurs observées de 10 premiers individus
head(Salaire$salary,10)
##  [1] 57000 40200 21450 21900 45000 32100 36000 21900 27900 24000
  1. Calculer la difference entre valeur observée et la valeur predite pour ces 10 valeurs
Salaire$salary[1:10] - modele_simple$fitted.values[1:10]
##         1         2         3         4         5         6         7 
##  3516.652  2469.612 -3391.603 -5232.942  2973.350  4394.223 -1730.388 
##         8         9        10 
##  1354.659  1626.310 -3705.777
  1. Visualiser les résidus pour tout l’echantillon.
View(modele_simple$residuals)
  1. Construire un tableau avec la variable salary, les valeurs predites et les résidus. Afficher le tableau.
View(cbind(Salaire$salary, modele_simple$fitted.values,modele_simple$residuals))
  1. Tracer le nuage de points de salary en fonction de salbegin. Sur le même graphiquer superposer la meilleur droite de régression.