2012-03-14

信度(Reliability)與效度(Validity)

信度(Reliability)效度(Validity)是所有測量的重要議題。兩者都是關心我們所設計的具體指標與這些指標所預測之構念(Construct)間的關係。構念則是指將一些觀念,事實或印象有系統的組織起來後,所形成的概念
  • 信度 
  1. 是指可靠性或一致性。信度好的指標在同樣或類似的條件下重複操作,可以得到一致或穩定的結果
  2. 信度有三種:
    • 穩定信度(Stability Reliability):這是一種長期的信度。也就是指標在不同時間做測量時,可以得到同樣的結果。通常我們是用測試與再測試方法(test-retest method)來檢視一個指標的穩定信度,也就是將同樣的指標對同一群體重新施測,如果每次都得到同樣的結果,則此指標即有穩定信度
    • 代表性信度(Representative Reliability):代表性信度是橫跨各個次母體或群組的信度。也就是指標用於不同次母體或群組(如年齡、性別)時,可以得到同樣的結果。例如,對年齡的測量,應該是詢問不同年齡層時,都可得到一致性的資訊,不論此指標是正確的問到年齡,還是有同樣方向的偏誤,如以多報少。做次母群體分析(Subpopulation Analysis)時,除了比較指標使用在不同的次母群體或群組的結果外,還涉及利用其他獨立的資訊,以判斷指標使用在不同群組時所得到的結果是否有同樣的誤差。
    • 同等信度(Equivalence Reliability):同等信度是應用在利用多重指標測量同一構念的情況。我們感興趣的是:是否不同指標能得到一致的測量結果?研究者常用折半法(the split-half method)來做此種信度的分析 
  3. 檢視信度的方法  
    • 再測法(Retest Method):使用同一份問卷,對同一群受測者,在不同的時間,前後測試兩次,求出者兩次分數的相關係數,此係數又稱為穩定係數(Coefficient of Stability)
      • 需注意相關係數高,表示此測驗的信度高、前後兩次測驗間隔的時間要適當。若兩次測驗間隔太短,受測者記憶猶新通常分數會提高,不過如果題數夠多則可避免這種影響;但若兩次測驗間隔太長,受測者心智成長影響,穩定係數也可能會降低 
    • 複本相關法(Equivalent-Forms Method):複本是內容相似,難易度相當的兩份測驗同一群受測者,第一次用甲份測試,第二次使用乙份,兩份分數的相關係數為複本係數(Coefficient of Forms)或等值係數(Coefficient of Equivalence) 
      • 若兩份測驗不是同時實施,亦可相距一段時間再施測,這樣算出的相關係數為穩定和等值係數
      • 複本相關法是測驗信度量測的一種最好方法,但是要編制複本測驗相當困難。而且複本相關法並不受記憶效用的影響,對測量誤差的相關性也比再測法低
    • 折半法(Split Half Method)將同一量表中測驗題目(項目內容相似),折成兩半(單數題、偶數題),求這兩個各半測驗總分之相關係數 
      • 與複本相關法很類似,折半法是同一時間施測,最好能對兩半問題的內容性質、難易度加以考慮,使兩半的問題盡可能有一致性 
      • 兩個各半測驗總分之相關係數稱為折半信度係數(split-half coefficient)
    • 柯能畢曲α係數(Cronbach α):1951年Cronbach提出α係數,克服部分折半法的缺點,為目前社會科學研究最常使用的信度。量測一組同義或平行測驗總和的信度,如果尺度中的所有項目都在反映相同的特質,則各項目之間應具有真實的相關存在。若某一項目和尺度中其他項目之間並無相關存在,就表示該項目不屬於該尺度,而應將之剔除
    • 編碼者間信度(Intercoder Reliability)另一種同等信度的特殊分析方法是做編碼者間信度(Intercoder Reliability)的分析。當我們用多位觀察者、評判者或編碼者時就可用此方法。其目的是檢視不同的觀察者或編碼者是否彼此間的意見一致
  4. 如何增進信度
    • 明確的概念化:當我們只測量單一構念或構念的一個面向(Subdimension),並有清楚的理論定義時,信度就會增加
    • 提升測量尺度的精確性
    • 使用多重指標:多重指標能使研究者測量一個構念的廣泛定義內容。這就好像是從概念領域中做抽樣(sampling from the conceptual domain),使研究者能測量到一個構念的不同層面
    • 使用預試(Pretests)、前導研究(Pilot Studies)及重複測試(Replication)
  • 效度
  1. 是指概念定義(Conceptual Definition)及操作化定義(Operational Definition)間是否契合。因此,當我們說一個指標有效度時,我們是在特定目的及定義的情況下做此判斷。同樣的指標在不同的研究目的下,可能有不同的效度
  2. 測量的效度比信度難達到。因為構念是抽象的,而指標則是具體的觀察。我們對於一個測量是否有效度並無絕對的信心,但可判斷是否比另一測量更有效度
  3. 測量的效度有四種類型:
    • 表面效度(Face Validity):指測量工具經由受試者或研究者主觀覺得與研究主題相關(也就是一看到測量工具,就知道研究者想測量什麼,所以是最沒有效力的一種)。這是最容易達成及最基本的效度。此類效度就是由學界來判斷指標是否真的測量到所欲測量到的構念
    • 內容效度(Content Validity)指某測驗之題目內容是否周延、具代表性、適切性、並確實包含所欲測量主題的內涵 。從測量工具的內容來檢查,看看是否符合測量目標所預期的內容。這是一種特殊的表面效度。內容效度的達成有三個步驟:
      1. 說明構念定義的內容
      2. 從此定義所包含的區域或部份中做抽樣
      3. 發展指標將定義來連結定義的這些部份
      • 專家效度:亦屬於內容效度,即是請專家(對於測量的內容所知甚多,可作判決的人)協助檢查問卷的內容與格式,評斷是否恰當
    • 校標效度(Criterion Validity):此類效度是用某些標準或校標來精確的指明一個構念。檢視測量指標的這種效度是要將它與測量同一構念且研究者有信心的指標來做比較
    • 效標關聯效度(Criterion-related Validity):指測驗分數與一些外在效標間的相關,是以經驗性的方法,研究測驗分數與外在效標間的關係,所以又叫經驗效度或統計效度。效標關聯效度可以分成下列幾種:
      • 併行效度(Concurrent Validity):或稱同時效度一個指標必須與既存且已被視為有效的指標相關連 
        • 如:大學入學考試(新的指標)可以用中學成績作效標(既存且有效的指標)
      • 預測效度(Predictive Validity):指測驗分數與將來效標資料之相關程度,若相關係數高,則測驗工具的預測效度越高,預測效度的效標資料通常需要過一段時間才可搜集到
        • 如:中學成績作為效標,可以用來預測大學入學考試成績
      • 區分效度(Differential Validity):拿兩種不同的測驗工具當做效標,分別與設計的測量工具之測驗結果求算相關係數,兩者的差即為區分效度
    • 建構效度(Construct Validity):或稱構念效度,是用於多重指標的測量情況。此類效度也有兩個次類型:
      • 聚合效度(Convergent Validity):當測量同一構念的多重指標彼此間聚合或有關連時,就有此種效度存在
      • 區別效度(Discriminant Validity):此種效度也稱之為分歧效度(Divergent Validity),與聚合效度相反。此類效度是指當一個構念的多重指標相聚合或呼應時,則這個構念的多重指標也應與其相對立之構念的測量指標有負向相關
      • 例如:設計一份關於「自尊」的問卷以了解這個概念,由於我們知道自尊跟「自信」的概念很相似(正相關;即自尊越高,自信越高),跟「自卑」的概念剛好相反(負相關;即自尊越多,自卑越少),我們透過文獻找出測量兩者的量表,讓同一群受試者填寫,若你設計的自尊量表與自信量表測出的結果有高度正相關,與自卑量表呈現負相關,我們說你的量表具有建構效度中的聚合效度(Convergent Validity),相反的情況則為區別效度(Discriminant Validity)

沒有留言:

張貼留言