科學抽樣 (scientific sampling)

  1. 機率抽樣法 (probabilistic sampling methods)

量性分析採用的主要是機率抽樣。在這種情況下,母群中每個成員被抽選的機率是一致,並可計算評估。最常見的包括簡易隨機抽樣、系統抽樣、分層抽樣和集體抽樣。

  隨機 不隨機
第一輪抽樣:電話號碼  
第二輪抽樣:住戶代表  

為何第二輪抽樣欠缺隨機性呢?關鍵在於接聽電話的住戶代表是否隨機,意指住戶中所有合資格接受訪問的成員是否都有均一被選的機會。視乎撥電的時段,接聽電話的住戶成員會有系統性的分別。例如,上午接電的多是家庭主婦或留在家中的長者。他們對家居電話服務的意見可能與在職成員有所不同。由於前者成為樣本的機會比後者為高,抽樣過程並不隨機。要解決這問題,可在接聽電話以後,先問明適合受訪(如滿18歲)之住戶成員數目,再以即時隨機抽樣的方法決定誰是受訪對象。

坊間多以街頭抽樣進行訪問,以為這便是隨機抽樣,其實大錯特錯。例如,某團體曾經在銅鑼灣的街頭進行一項有關假日消費意欲的調查。然而,銅鑼灣商場林立,是眾所週知的購物熱點。相對其他非購物區,在這區流連的行人極可能表現更強的消費意欲。如是者,探究結果告知我們什麼?所謂的結論 -- 如“香港人假日購物意欲高漲”-- 是否客觀?探究設計本身早已自圓其說,在抽樣初階預設結論。這類探究欠缺科學程序,須避免之。

  隨機 不隨機
第一輪抽樣:地區  
第二輪抽樣:個人

母群元素 (色格數為所抽選之樣本)
1 2 3 4 5 6 7 8 9 10
11 12 13 14 15 16 17 18 19 20

系統抽樣比簡易隨機抽樣容易操作。然而,我們需留意母群元素排序有否潛藏一種週期性。假設我們需要在K中學四個年級,每級抽選一班做訪問,而以下是校方提供的母群名單:

母群元素
1A 1B 1C 1D 1E 2A 2B 2C 2D 2E
3A 3B 3C 3D 3E 4A 4B 4C 4D 4E

依照先前之範例,每五班選一班,我們會選出四個年級的所有A班同學做訪問。這是否一個隨機的選擇呢?關鍵在於分班方法是否隨機,而A至E這排序有否呈現一定的系統形態。假設K中學是以成績來分班,則A、B、C、D的排列其實反映了學生表現之優劣。如是者,我們抽選的樣本便出現週期性誤差 (periodicity bias) ,而實際受訪的同學將只代表精英班的意見,無法做到隨機抽樣的效果。


我們會發現兩個樣本的數據差異頗大,曾服食瘦身產品的比率分別是30%和50%。這差異反映正常的隨機分佈,抑抽樣過程出現的偏差呢?同一例子其實在上一個講義的尾段 [LINK]出現過。根據當時提供的資料,原來兩個樣本的性別比例相差甚遠,而問題正源自性別和服食瘦身產品的相互關係:

 

根據上述資料,女性服食瘦身產品的比率較高。如是者,我們須確保抽樣程序顧及這變項因素。例如,我們可先把母群分開兩個組別,即男生與女生,然後才在這兩個組別進行抽樣。

以上方法便是分層抽樣。分層抽樣並不是這兩種方法的代替品,而是一種修正的抽樣程序。層 (stratum) 是根據母群中的個體屬性類分之互斥組別,如性別、種族、收入等。分層的概念是先將母群分為相關的層,才在每層中隨機抽取樣本。分層的好處是增加次母群之共通性,固亦控制了第三變項〔LINK〕可能引致的偏差問題,亦幫助我們更有系統地探究不同變項之間的相互關係。

以性別為層的例子:

同一個母群可通過多重的分層處理。假設我們要解釋不同人對墮胎的看法 (下稱 y),而可能相關的變項包括性別和宗教信仰。我們一方面希望能系統地探究三者的關係,固必須在探究時蒐集完整的相關資料。例如,我們可能選擇以問卷形式進行探究。如是者,則問項中必須包括對方性別、宗教信仰以及對墮胎之取態的問題。與此同時,我們須確保數據的結果是有效地反映兩個 x 的影響,而不是源自其他探究步驟 -- 如抽樣 -- 出現的偏差。在這種情況下,我們可先作分層處理,確保沒有一個次母群被過份代表 (over-represented):

 


例子:春田省中學生調查

要拿得母群完整的表列名單並不是容易的事。這帶來操作上的困難,亦令過程變得繁複。類聚抽樣是一個常用但較易操作的機率抽樣方法。做法是先把母群分為若干集體部落,或所謂的類聚 (cluster),如國家、地區、大廈、居住樓層、學校、學班,然後先從這些類聚中隨機抽樣。當類聚抽樣完成後,才搜集相關之表列名單,進行最終之樣本抽樣。

例子:春田省中學生調查

類聚抽樣雖然帶來相當的利便,但卻有可能因為類聚之間的分別而出現一個欠缺代表性的樣本。一般而言,類聚的數項越多,而每個類聚以內的表列清單越短,則會出現系統偏差的機會會較低。


探究題目:香港中學生對校規的看法
抽樣方法 母群 所需資料 程序
單一抽樣方法 SRS 或系統抽樣 校內所有同學 校內所有同學之完整表列名單 從名單中進行SRS或系統抽樣
雙重抽樣 分層抽樣

1. 把母群表列名單分層
2. 在每層進行SRS抽樣

類聚抽樣 母群的類聚名單(如班別),以及被抽選之類聚(如抽選的5B班) 的完整表列名單

1. 把母群分為類聚,然後進行類聚隨機抽樣
2. 在抽選的類聚中進行
- SRS/ 系統抽樣,或
- 先進行分層抽樣,再進行SRS或系統抽樣


  1. 非機率抽樣法 (non-probabilistic sampling methods)

在實際探究中,機率抽樣並不一定可行。在這些情況下,探究員只能進行非機率抽樣。常用的方法包括便利抽樣法、配額抽樣、滾雪球抽樣和立意抽樣,簡述如下:

顧名思義,便利抽樣便是依據方便和經濟的原則,抽選最容易接觸或聯絡的單位作樣本,如就有關香港人消費意欲的調查訪問街上途人,或就香港中學生對校規的看法訪問校內同學。便利抽樣明顯並不費時,但所得之樣本會有偏差,固不適宜把數據過份概括至更大的母群。

配額抽樣和分層抽樣有點相似。探究員會根據她對母群屬性的認識定下一些類分指標(如性別),然後按這些變值定下樣本配額(如須訪問多少男生和女生)。不同的是,分層抽樣屬機率抽樣的一種,本質上採用隨機原則;配額抽樣則依靠探究員有限的認知和主觀的判斷去確立配額,屬非機率的抽樣方法。

當母群中的表列名單層並不明確的時候,我們須首先接觸具有相關屬性的人,然後通過他們的網絡,滾雪球般一個介紹一個的接觸更多樣本,直至數據飽和為止。

例如,我們無法確認那些年青人曾經服食精神科藥物。然而,我們可先接觸少數有此經驗的年青人,然後通過她們介紹網絡中的其他個案,幫助我們滾雪球般慢慢累積所需的樣本。

立意抽樣的意思是根據探究員對母群的認識和判斷去抽選他認為最具代表性的樣本。


量性與質性抽樣

由於數理邏輯的因素,量性統計分析必須建基於機率抽樣之上。質性分析並不倚重量化數據,強調的是理論上的概括性而不是從樣本概括至母群的代表性,固所用之抽樣方法亦不局限於機率形式,較常採用非機率抽樣。

探究方法 機率 非機率
量性
質性
  適宜方法  不適宜採用

科學抽樣的精神在於避免主觀偏見影響探究結論,相關考慮有兩個:

  1. 程序是對過程的操控;我們選擇怎樣抽樣,便直接影響樣本和來源資料的性質。
  2. 樣本屬於母群的一部份,而不是“真相”的全部。我們將根據樣本所得立論,概括至大於樣本的群體或議題。

關鍵是 (a)如何影響 (b),以及概括過程的性質,亦即結論之含義。如所得之數據將用諸更大的母群,則無論採用的是量性或質性方法,抽樣方法都必須具備機率上的代表性。另一方面,如探究的目的純為了解和深化某些概念上的認知,而不是量化地概括至更大母群,則採用非機率抽樣亦是可行。

探究主題 概括性質 抽樣方法
機率 非機率
社區互助經濟的成效

機率概括:從樣本至更大的母群

理論概括:從樣本至某個理論類別

適用程序  不適用程序