2016年4月12日 星期二

偏差樣本的相關係數

高中成績比指考成績更適合大學選才?

有些大學,分析自己學校學生的大學成績、高中成績、指考成績,計算之間的相關係數。發現高中成績與大學成績間的相關係數略高於指考成績與大學成績間的相關係數。發生質疑,是否高中成績比指考成績更適合當作大學選才的工具?

事實上,這樣的論證建立在偏差樣本之上,不具說服力。請看以下的逐步說明。

指考成績的效度

一般認為:若指考成績愈高的同學,大學成績也愈高,也就是指考成績與大學成績高度正相關,則用指考成績來挑選學生是恰當的。反之,若指考成績與大學成績相關係數不高,則用指考成績來挑選學生是不恰當的。

換句話說,以大學成績為效標,指考成績與大學成績的相關係數就是指考成績的效度,指考的效度愈高,用它來挑選進大學的學生愈恰當。

假設高中在校成績與大學成績間的相關係數大於指考成績與大學成績間的相關係數,也就是說,高中在校成績的效度大於指考成績的效度。我們會質疑:為什麼不用高中成績取代指考成績,當作大學入學選才的篩選工具。

大學要挑選學生,待挑選的學生是所有的高中畢業生;所有有意願進大學的學生;所有參加指考的學生。要算指考效度,所面對的母體是所有參加指考的學生

那麼,指考成績的效度與高中成績的效度到底誰大?

相關係數(效度)的估計

隨機樣本的樣本相關係數 \(r\) 是母體相關係數 \(\rho\) 的好估計量

一般來說,我們用隨機樣本的樣本相關係數 \(r\) 來估計母體相關係數 \(\rho\) ,效果不錯。

抽取樣本時,若每一個個體被抽到的機率都一樣,所得的樣本叫做隨機樣本。隨機樣本的 \(r\) 是 \(\rho\) 的好估計量。

下面我們模擬第一組資料,母體是二變量常態 \((X,Y)\),其中 \(X,Y\) 的標準差都是 15,期望值皆為 50, 相關係數 0.7。從中抽取樣本大小 \(n=10000\) 的隨機樣本,稱作樣本甲,計算所得樣本的相關係數。

請看下面用 R 寫的程式片段

# 下面的小程式 simulate1,模擬一個二變量常態(X,Y)的隨機樣本,樣本大小為 n,
# X,Y的標準差都是 sigma,期望值皆為mu, 相關係數 rho。
simulate1<-function(rho,mu,sigma,n){
    sigma2<-sigma*sigma
    data.frame(mvrnorm(n,c(mu,mu),matrix(c(sigma2,rho*sigma2,rho*sigma2,sigma2),ncol=2)))
}
# 用simulate1模擬rho=0.7,mu=50,sigma=15,n=10000 的隨機樣本。
options(digits=4)
library(MASS)
set.seed(123)
rho<-0.7
DataA<-simulate1(rho=rho,mu=50,sigma=15,n=10000)  #DataA 是樣本甲
colnames(DataA)<-c('X','Y')
# 計算樣本相關係數 r 用來估計 rho。
r<-cor(DataA)[1,2]
c(rho=rho,r=r)

與執行結果
   rho      r 
0.7000 0.6985

我們可以看到,用隨機樣本甲的相關係數(r=0.6985)來估計母體相關係數(rao=0.7),效果相當理想。

偏差樣本的樣本相關係數\(r\)是母體相關係數\(\rho\)的差勁估計量

抽取樣本時,若每一個個體被抽到的機率不完全一樣,所得的樣本叫做偏差樣本。偏差樣本的 \(r\)是 \(\rho\) 的差勁估計量。

偏差樣本隨處可見,沒有經過精心設計的電話民調,是一個普遍存在的偏差樣本。例如,電話調查時間,在野外工作的人不會被抽到,有多支電話的人較容易被抽到,……。

假設,\(X\) 為指考成績,\(Y\) 為大一微積分成績,用 \(X,Y\)間的相關係數 \(\rho\) 當作 \(X\) 的效度。如何用資料估計 \(\rho\) 呢?

此時的母體是所有參加指考的學生,進行隨機抽樣不可行,因為只有進大學的學生才有微積分成績 \(Y\)。假設,台大利用台大大一學生的指考成績 \(X\) 與微積分成績 \(Y\),計算 \(X,Y\) 間的相關係數 \(r\),這個 \(r\) 不適合當作指考效度 \(\rho\) 的估計值。理由是:樣本是母體的偏差樣本,沒進入台大的學生全部不在樣本裡,這個樣本不能代表所有參加指考學生的母體,這個樣本是個極度偏差的樣本。

偏差樣本影響多大?這要看偏差有多嚴重而定。下面模擬一個簡單的偏差樣本,單純的將樣本甲中\(X\) 低於 80 分的學生移除,所得樣本叫樣本乙,計算樣本乙的相關係數,其中 rho、rhohat、r 分別為母體相關係數、隨機樣本甲相關係數、偏差樣本乙相關係數。

請看下面的程式片段

# 先來看看一種極度簡化的偏差樣本。
# 將前述隨機樣本中,X<80 的學生移除
DataB<-DataA[DataA$X>=80,]    # DataB 是樣本乙
c(rho=rho,rhohat=cor(DataA)[1,2],r=cor(DataB)[1,2],SubSamplesize=length(DataB$X))

結果為
          rho        rhohat             r SubSamplesize 
       0.7000        0.6985        0.3577      220.0000

我們可以看到偏差樣本乙的相關係數 r=0.3577 與母體相關係數 \(\rho\)=0.7 相距甚遠。可見,偏差的程度還滿嚴重的。

模擬進入某校學生的偏差樣本

接著我們模擬略為逼真的考生成績,包括指考國文(Chi)、 指考英文(Eng)、 指考數學(Math)、 高中成績(GPA)、大一微積分成績(Cal)。假設母體中,這五個成績呈現多變量常態分配,每一科的平均皆為 50,標準差都是 15,任兩者間的相關係數皆為 0.7。因此,Chi, Eng, Math, GPA 對大學成績 Cal 的效度都相同。

從母體中抽出樣本數為 50000 的樣本丙。

某系A採計國文、英文、數學成績選才,三科權數皆相同,加權總分 SAT=(Chi+Eng+Math)/3。計算隨機樣本丙中,Chi, Eng, Math, GPA, Cal, SAT間的相關係數。

程式如下:
# 下面的小程式 simulate2,模擬一個五變量常態的隨機樣本,樣本大小為 samplesize,
# 母體中每個變數的標準差都是 sigma,期望值皆為mu, 任兩變數間的相關係數都是 rho。
# 變數名稱為'Chi','Eng','Math','GPA','Cal',再用'Chi','Eng','Math'加權合計得變數SAT。
simulation2<-function(satname=c('Chi','Eng','Math'),
                      weights=c(1,1,1),rho=0.7, mu=50,
                      sigma=15,sampleSize=50000){
  predicters<-c(satname,'GPA')
  # Data 為模擬的成績資料,欄位依序為'Chi','Eng','Math','GPA','Cal'
  npredicters<-length(predicters)
  K<-npredicters+1
  Mu<-rep(mu,K)
  Sigma2<-(sigma*sigma)*(matrix(rep(rho,K*K),ncol=K)+(1-rho)*diag(K))
  Data<-data.frame(mvrnorm(sampleSize,Mu,Sigma2))
  colnames(Data)<-c(predicters,'Cal')
  # 計算SAT
  Data$SAT<-0
  for (i in 1:length(satname)){
      Data$SAT<-Data$SAT+Data[[i]]*weights[i]
  }
  Data$SAT<-Data$SAT/sum(weights)
  Data
}
DataC<-simulation2(satname=c("Chi","Eng","Math"),
                  weights=c(1,1,1),rho=0.7,mu=50,
                  sigma=15,sampleSize=50000)         # DataC 為樣本丙
cor(DataC)

結果如下:
        Chi    Eng   Math    GPA    Cal    SAT
Chi  1.0000 0.7001 0.6978 0.6998 0.6981 0.8942
Eng  0.7001 1.0000 0.7002 0.7006 0.7005 0.8946
Math 0.6978 0.7002 1.0000 0.7000 0.6989 0.8938
GPA  0.6998 0.7006 0.7000 1.0000 0.6992 0.7830
Cal  0.6981 0.7005 0.6989 0.6992 1.0000 0.7819
SAT  0.8942 0.8946 0.8938 0.7830 0.7819 1.0000

我們可以看到,Chi, Eng, Math, GPA, Cal之間的樣本相關係數都很接近母體的相關係數 0.7。SAT 與這五科間的樣本相關係數都高於 0.7 而介於 0.78 到 0.90 之間。再次驗證,隨機樣本的相關係數是母體相關係數的好估計量。

因為種種原因,落點分析是原因之一,該系錄取的學生 SAT 成績都介於 70 到 80 之間。要模擬這種現象,我們簡單的把 SAT 成績低於 70 或高於 80 的移除,形成樣本丁,計算樣本丁的相關係數。

程式如下:
DataD<-DataC[DataC$SAT>=70 & DataC$SAT<=80,]         # DataD 為樣本丁
cor(DataD)

所得結果如下:
          Chi      Eng     Math     GPA     Cal    SAT
Chi   1.00000 -0.28014 -0.30888 0.06163 0.09176 0.3470
Eng  -0.28014  1.00000 -0.27839 0.11370 0.06672 0.3877
Math -0.30888 -0.27839  1.00000 0.07752 0.11559 0.3898
GPA   0.06163  0.11370  0.07752 1.00000 0.30749 0.2248
Cal   0.09176  0.06672  0.11559 0.30749 1.00000 0.2441
SAT   0.34697  0.38766  0.38979 0.22483 0.24411 1.0000

我們可以看到,微積分(Cal)與高中成績(GPA)的樣本相關(0.30749)明顯高於 Cal 與 Chi,Eng,Math 的樣本相關(介於0.07到0.12之間)。而 Cal 與 GPA 的樣本相關(0.30749)又明顯的低於母體的相關係數(0.7)。我們知道,在母體中,Chi,Eng,Math,GPA 與 Cal 的相關都是0.7。然而在偏差樣本(錄取樣本)中,Cal 與 GPA 的相關高於 Cal 與 Chi,Eng,Math 的相關。Chi,Eng,Math 與 GPA 之間的唯一差別,在於錄取時採計 Chi,Eng,Math 而沒有採計 GPA。

在我們的模擬資料中,偏差樣本中看到的現象,Cal 與 GPA 的相關高於 Cal 與 Chi,Eng,Math 的相關,是個假象,因為我們都知道,母體中的相關係數全都是 0.7。

再看另外一個例子,假設該系採計的方式改成 Chi,Eng,Math 的權數分別為 0.25,0.25,0.5,其他情況不變,得到另一個偏差的錄取樣本戊,計算樣本戊的相關係數。

程式如下:
DataE<-simulation2(satname=c("Chi","Eng","Math"),
                  weights=c(1,1,2),rho=0.7,mu=50,
                  sigma=15,sampleSize=50000)         
DataE<-DataE[DataE$SAT>=70 & DataE$SAT<=80,]         # DataE 為樣本戊
cor(DataE)

所得結果如下:
          Chi      Eng      Math       GPA       Cal    SAT
Chi   1.00000 -0.04851 -0.370287  0.168311  0.171401 0.3077
Eng  -0.04851  1.00000 -0.379517  0.179660  0.166253 0.3370
Math -0.37029 -0.37952  1.000000 -0.009813 -0.004321 0.4876
GPA   0.16831  0.17966 -0.009813  1.000000  0.302994 0.2521
Cal   0.17140  0.16625 -0.004321  0.302994  1.000000 0.2498
SAT   0.30775  0.33705  0.487645  0.252148  0.249848 1.0000

我們可以看到,Math採計權數 0.5 最高,Chi,Eng 的權數(0.25)次之,GAP(權數0)又次之,對應的 Cal 與 Math 的樣本相關最低(-0.004321),Cal 與 Chi,Eng 的樣本相關次低(0.171與0.166),Cal 與 GPA 的樣本相關最高。

總而言之,採計權重越大,錄取樣本中相關越低。

錄取樣本中,Math 與 Cal 的相關最低是由採計最重所造成,不是母體中的相關較低所造成。

結論

有些大學,分析自己學校學生的大學成績、高中成績、指考成績,計算之間的樣本相關係數。發現高中成績與大學成績間的相關係數略高於指考成績與大學成績間的相關係數,作成結論:高中成績效度比指考成績效度高。

因為用來計算的樣本是個非常偏差的樣本,偏差樣本中看到的現象,完全無法推論母體會有同樣的現象。也就是說,所得的結論,是用一個以偏蓋全的錯誤方式,得到十足具有爭議性的結論。

沒有留言:

張貼留言

MongoDB Atlas

IP 地址白名單 為了安全,mongodb atlas 資料庫,除了連線時需要提供使用者名稱與密碼之外,可以設定IP地址(IP Address)白名單。只有列在白名單的電腦可以存取它。 白名單中,可以是單一IP,也可以是 CIDR  IP 區間( CIDR -notated ra...