添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
數據資料檔的建立,必須包括資料檢誤的工作才能算完成。嚴謹的資料檢誤,可以增進資訊的正確性以及資料的可用性。一般來說,資料發生錯誤的來源可能來自於訪員、督導、過錄者或鍵入資料者。不過,有些時候只是程式語法錯誤,而造成資料錯誤的假象。基本的資料檢誤工作包括:不合理值檢誤及邏輯檢誤兩種。本期以 SPSS 統計軟體介紹不合理值的檢誤工作。 大部份變項都有其合理的值域或分佈,而超出這些值域、或落在合理分佈以外的觀察值,往往起因於建檔過程中發生的錯誤。一般而言,界外值 (Outlier) 亦屬於不合理值。茲將整理工作內容說明於下: 一、類別變項 (Categorical Variables) 類別變項的合理數值應該是幾個固定的類別代碼,包含研究者設計的「跳答碼」、「遺漏值代碼」等。如果類別變項的資料中有任何數值非屬這些固定代碼,即為不合理值。研究者應該查明這些不合理值的來源,並做適當的修改或處理。 1 :【原始問卷】如下: 3. 請問您父親的籍貫是 1. 本省閩南人 2. 本省客家人 3. 大陸各省市 4. 原住民 5. 其他 1-1 【次數分配結果】如下: 從上面的次數分配結果表中,不容易發現是否有不合理值存在,必須核對問卷或過錄編碼簿之內容才能得知。如果能在資料檔或程式中補上選項數值說明 (value label) ,則能夠輕易的找出不合理值。 【自撰語法】 - 選項數值說明 value label a3 1 " 本省閩南人 " 2 " 本省客家人 " 3 " 大陸各省市 " 顯然「 0 」、「 6 」對於這個變項而言都是不合理的界外值。而「 7 」是原計畫設計的「不知道」編碼,單從問卷中無法得知此編碼。其中,選「 6 」的人很少,只有兩名,可能是過錄員或鍵入資料者所發生的錯誤;而「 0 」,則可能為「跳答 + 遺漏值」混合使用的代碼,該研究沒有明確定義「 0 」並區分跳答及遺漏值的結果。一般而言,資料檔中亦需要建立跳答、遺漏值等特殊編碼的選項數值說明。 類別變項的不合理檢誤,最方便的方法就是執行「次數分配」。只要將該變項做「次數分配」,則資料的值域、分佈就會一覽無遺。如果需要進一步檢誤可疑資料的編號 (ID) ,則需再配合其他程式。下面以 SPSS 語法說明如何挑出不合理值。 《步驟一》執行次數分配分析 【自撰語法】 可以利用「 Frequencies Variable=varname1 」語法執行。 【點選選單】 選取「 Analyze Descriptive Statistics Frequencies 」再點選要分析的變項名稱 《步驟二》挑出可疑值的 ID 【自撰語法】 可以透過下列語法,將可疑值及其 ID 列出。 Temporary. Select If Any(Varname1, n1,n2,…). id Varname1. 【點選選單】 可以點選「 Data Select Cases 」再到對話視窗中設定條件,即可使工作中的資料檔僅剩下篩選過、符合條件的觀察值。此時,點選「 Analyze Descriptive Statistics Frequencies 」,再選定「 ID 」等編碼變項,即可得到可疑值的 ID 清單。 此外,有關年齡、年度、月份、小孩數…等變項,皆因題目與受訪者的不同,而有不同的合理值域。 二、連續性變項 檢查連續性變項的基本方法,可以由簡單的描述性統計值 ( 平均值、標準差、極大值、極小值 ) 、分佈圖等幾方面來看。 2-1 :以下舉一般性的觀念為範例: 平均值 而言,某社區青年收縮壓平均值只有 70 mmHg ,並不符合一般生理分佈。 標準差 而言,某社區青年收縮壓標準差高達 50 mmHg ,亦不符合一般文獻的記載。 極大值 極小值 來看,學童身高落在 80 170 公分以外者,亦不符合學童正常生理狀態。 從圖 2 的分佈看出遠離集中分佈的觀察值 (outlier) 。上述為一個腫瘤直徑的散點分佈圖,我們可以看出有兩個點各為 10 公分、 50 公分左右,遠遠離開一般腫瘤大小的分佈範圍。其資料的正確性值得查驗。 如果這是一個罕見的病例、嶄新的發現,也必須建立在資料正確性無庸置疑的基礎上!所以,資料檢誤是量化研究重要的程序之一。 【自撰語法】 可以使用「 EXAMINE VARIABLES = varname/PLOT =BOXPLOT. 」語法,即可同時得到詳盡的描述性統計值 ( 包括:平均值、標準差、峰度、偏度、極大值、極小值、樣本數…等 ) ,以及箱型圖 (box plot) 。另外,可以依照專業知識設定連續變項合理的值域,做界外值檢誤,語法如下: 【點選選單】 可以點選「 Analyze Descriptive Statistics Explore 」,將要分析的變項選至「 Dependent List 」中,計算平均值、標準差、極大值、極小值、樣本數;再點選「 Graphs Boxplot ( 設定 Summaries of separate variables) ,可得到箱型圖。 在上述方法中所挑出的個案編號,應詳細檢查原始回卷的內容後,將錯誤的資料更正,整個不合理值檢查的工作才告完成。如果資料鍵入時發生錯誤,而錯誤的資訊仍在合理值範圍中,則相當不容易找出。這就是為什麼需要 double key in 後再核對兩資料檔是否一致。嚴謹的資料整理工作,可以早期發現資料的錯誤,並早期修改,以免影響分析結果。不合理值檢查工作更應該於邏輯檢查之前先執行。在下一期通訊中,我們將介紹如何以 SPSS 進行邏輯檢查的方法,敬請期待。 陳家玉 [原文刊載於SRDA學術調查研究資料庫通訊第41期,2012.6] 一、   前言 市面上統計套裝軟體不勝枚舉,目前最常被使用的仍以 SAS 、 SPSS 、 STATA 為主流且各有所長。當好不容易申請或取得的資料檔,並非平時熟悉的統計軟體檔案格式時,如何將檔案進行讀取或轉換,是多數人常面臨到的問題。統計軟體檔案格式的轉換,除了利用統計套裝軟體內建的匯入及匯出功能外, Stat/Transfer 是另一個快速且便利的檔案格式轉換工具。本文將統計套裝軟體的匯入 / 匯出功能分為二部分介紹:第一部分以各軟體資料檔間的轉換為主;第二部分介紹匯入 / 匯出最通用的純文字檔及普遍用於數據資料整理的 EXCEL 檔,於下以 SAS 9.2 版、 SPSS 20 版、 STATA 12.1 版逐步分述之。 Stat/Transfer 統計數據轉換軟體則針對介面功能操作進行介紹。 二、   匯入 / 匯出統計軟體資料檔功能 在說明如何轉檔前,先瞭解此三種軟體資料檔的差異性(表 1 ),其中 SPSS 、 STATA 資料檔可以包含變項說明( variable label )與選項數值說明( value label )兩者,但 SAS 資料檔僅包含變項說明,選項數值說明則是另以格式檔儲存,需套用 format 指令才能取得。 表 1 : SAS 、 SPSS 、 STATA 資料檔之差異   軟體 差異性 SAS SPSS STATA 說   明 資料與格式分別儲存 資料與格式儲存在同檔案中 資料與格式儲存在同檔案中 資料檔 *.sas7bdat *.sav *.dta 格式檔 *.sas7bcat 數據資料因受限於統計軟體資料檔支援性的問題,較常以純文字檔,搭配語法( syntax )撰寫進行檔案讀取。隨著套裝軟體視窗版的不斷發展、更新且越具易用性,可支援多種檔案類型的匯入與匯出,使得程式語法不再是絕對必要,讓使用者省去自行撰寫程式的麻煩,能快速又方便地讀取或轉換資料。 (一)   ... 王文心  [原文刊載於SRDA學術調查研究資料庫通訊創刊號,2002.4] 一、過錄的原則 就量化研究而言,過錄( Coding )簡單的說,是將問卷或其他來源的資料轉換成數字,以利使用電腦來進行統計分析。過錄包括四個主要的步驟:給予與每個問題(或變項)答案相對應的過錄碼( Code )、安排適當的欄位供電腦讀取過錄碼、製作過錄編碼簿、以及檢查過錄結果。 過錄碼的設計具以下幾項特性: 1.   包容性:問題的每一種答案都有一種可歸入的類別 2.   互斥性:每一種答案只能歸入一種類別 3.   適當性:分類後能夠取得研究所需要的資訊,或給予的方式符合一般常規。 除此之外,在進行過錄時應把握幾項要領,第一,每筆資料應留有識別變項,例如:研究計畫編號、樣本編號等,以利事後資料有錯誤時,用以查找原始問卷;第二,沿用封閉式問卷中的選項代碼,以免過錄員混淆;第三,封閉式問題答案的分類或加總,應由研究者事後依其研究目的與需要再進行,過錄時應保留最原始的資訊。 二、過錄編碼簿( Codebook ) 在完成過錄碼的給予之後,應將所有過錄規則與內容彙整成一份文件存檔,這樣的文件便稱為過錄編碼簿(參考下面範例),過錄編碼簿包括的項目如下: 1.   題號:即該變項位於原始問卷中之題目的題號 2.   變項名稱:供電腦辨識及分析使用,例如用變項意義為代表的 birthyr (出生年)、 birthmth (出生月份)、 sex (性別)、 edu (教育程度)等;或是以變項順序命名的 V1 、 V2 、 V3 等。在撰寫統計分析程式時,會需要使用變項名稱。 3.   卡數 / 欄位:記錄資料存放的位置。在以 ASCII 格式建立資料檔時,一般習慣將資料的欄位一列控制在 80 欄之內,若訪問的問卷太長,一列不夠過錄時,便登錄到第二列、第三列;像這樣多列代表同一樣本的資料檔,每個樣本的第一列資料我們稱為第一卡,第二列的資料稱為第二卡,依此類推。 SAS 、 SPSS 讀取多卡資料時,須注意其特定語法。 4.   變項說明( variable label ):解釋變項名稱代表的意涵,譬如: birthy...