當我們的調查問卷在把調查數據拿回來后,我們該做的工作就是用相關的統計軟件進行處理,在此,我們以SPSS為處理軟件,來簡要說明一下問卷的處理過程,它的過程大致可分為四個過程:定義變量、數據錄入、統計分析和結果保存。下面將從這四個方面來對問卷的處理做詳細的介紹。
Step 01
定 義 變 量
大多數情況下我們需要從頭定義變量,在打開SPSS后,我們可以看到和excel相似的界面,在界面的左下方可以看到Data View,Variable View兩個標簽,只需單擊左下方的Variable View標簽就可以切換到變量定義界面開始定義新變量。
在表格上方可以看到一個變量要設置如下幾項:
name(變量名)
type(變量類型)
width(變量值的寬度)
decimals(小數位)
label(變量標簽)
Values(定義具體變量值的標簽)
Missing(定義變量缺失值)
Colomns(定義顯示列寬)
Align(定義顯示對齊方式)
Measure(定義變量類型是連續、有序分類還是無序分類)
我們知道在SPSS中,我們可以把一份問卷上面的每一個問題設為一個變量,這樣一份問卷有多少個問題就要有多少個變量與之對應,每一個問題的答案即為變量的取值。現在我們以問卷第一個問題為例來說明變量的設置。
為了便于說明,可假設此題為:
1.請問你的年齡屬于下面哪一個年齡段?
A:20—29 B:30—39 C:40—49 D:50--59
那么我們的變量設置可如下:
name即變量名為1,type即類型可根據答案的類型設置,答案我們可以用1、2、3、4來代替A、B、C、D,所以我們選擇數字型的,即選擇Numeric,width寬度為4,decimals即小數位數位為0(因為答案沒有小數點),label即變量標簽為“年齡段查詢”。
Values用于定義具體變量值的標簽,單擊Value框右半部的省略號,會彈出變量值標簽對話框,在第一個文本框里輸入1,第二個輸入20—29,然后單擊添加即可。
同樣道理我們可做如下設置,即1=20—29、2=30—39、3=40—49、4=50--59;Missing,用于定義變量缺失值,單擊missing框右側的省略號,會彈出缺失值對話框,界面上有一列三個單選鈕,默認值為最上方的“無缺失值”;第二項為“不連續缺失值”,最多可以定義3個值;最后一項為“缺失值范圍加可選的一個缺失值”,在此我們不設置缺省值,所以選中第一項如圖;Colomns,定義顯示列寬,可自己根據實際情況設置;Align,定義顯示對齊方式,有居左、居右、居中三種方式;Measure,定義變量類型是連續、有序分類還是無序分類。
以上為問卷中常見的單項選擇題型的變量設置,下面將對一些特殊情況的變量設置也作一下說明:
1. 開放式題型的設置
諸如你所在的省份是_____這樣的填空題即為開放題,設置這些變量的時候只需要將Value 、Missing兩項不設置即可。
2. 多選題的變量設置
這類題型的設置有兩種方法:即多重二分法和多重分類法,在這里我們只對多重二分法進行介紹。
這種方法的基本思想是把該題每一個選項設置成一個變量,然后將每一個選項拆分為兩個選項,即選中該項和不選中該項。
現在舉例來說明在SPSS中的具體操作。比如如下一例:
請問您通常獲取新聞的方式有哪些
1.報紙 2.雜志 3.電視 4.收音機 5.網絡
在SPSS中設置變量時可為此題設置五個變量,假如此題為問卷第三題,那么變量名分別為3_1、3_2、3_3、3_4、3_5,然后每一個選項有兩個選項選中和不選中,只需在Value一項中為每一個變量設置成1=選中此項、0=不選中此項即可。使用該窗口,我們可以把一個問卷中的所有問題作為變量在這個窗口中一次定義。
到此,我們的定義變量的工作就基本上可以結束了。下面我們要做就是數據的錄入了。首先,我們要回到數據錄入窗口,這很簡單,只要我們點擊軟件左下方的Data View標簽就可以了。
Step 02
數 據 錄 入
SPSS數據錄入有很多方式,大致有以下幾種:
讀取SPSS格式的數據
讀取Excel等格式的數據
讀取文本數據(Fixed和Delimiter)
讀取數據庫格式數據(分如下兩步)
①配置ODBC
②在SPSS中通過ODBC和數據庫進行
但是對于問卷的數據錄入其實很簡單,只要在spss的數據錄入窗口中直接輸入就可以了,只是在這里有幾點注意的事項需要說明一下:
1. 在數據錄入窗口,我們可以看到有一個表格,這個表格中的每一行代表一份問卷,我們也稱為一個個案。
2. 在數據錄入窗口中,我們可以看到表格上方出現了1、2、3、4、5…….的標簽名,這其實是我們在第一步定義變量中,我們為問卷的每一個問題取的變量名,即1代表第一題,2代表第二題。以次類推,我們只需要在變量名下面輸入對應問題的答案即可完成問卷的數據錄入。比如上述年齡段查詢的例題,如果問卷上勾選了A答案,我們在1下面輸入1就行了(不要忘記我們通常是用1、2、3、4來代替A、B、C、D的)。
3. 我們知道一行代表一份問卷,所以有幾份問卷,就要有幾行的數據。
在數據錄入完成后,我們要做的就是我們的關鍵部分,即問卷的統計分析了,因為這時我們已經把問卷中的數據錄入我們的軟件中了。
Step 03
統 計 分 析
有了數據,可以利用SPSS的各種分析方法進行分析,但選擇何種統計分析方法,即調用哪個統計分析過程,是得到正確分析結果的關鍵。這要根據我們的問卷調查的目的和我們想要什么樣的結果來選擇,SPSS有數值分析和作圖分析兩類方法。
1. 作圖分析
在SPSS中,除了生存分析所用的生存曲線圖被整合到Analyze菜單中外,其他的統計繪圖功能均放置在graph菜單中。該菜單具體分為以下幾部分:
Gallery:相當于一個自學向導,將統計繪圖功能做了簡單的介紹,初學者可以通過它對SPSS的繪圖能力有一個大致的了解
Interactive:交互式統計圖
Map:統計地圖
下方的其他菜單項是我們最為常用的普通統計圖,具體來說有:
條圖散點圖線圖直方圖餅圖面積圖箱式圖正態Q-Q圖正太P-P圖質量控制圖Pareto圖自回歸曲線圖高低圖交互相關圖序列圖頻譜圖誤差線圖作圖分析簡單易懂,一目了然,我們可根據需要來選擇我們需要作的圖形,一般來講,我們較常用的有條圖、直方圖、正態圖、散點圖、餅圖等等,具體操作很簡單,大家可參閱相關書籍,作圖分析更多情況下是和數值分析相結合來對試卷進行分析的,這樣的效果更好。
2. 數值分析
SPSS數值統計分析過程均在Analyze菜單中,包括:
(1)Reports和Descriptive Statistics
又稱為基本統計分析,基本統計分析是進行其他更深入的統計分析的前提,通過基本統計分析,用戶可以對分析數據的總體特征有比較準確的把握,從而選擇更為深入的分析方法對分析對象進行研究。
Reports和Descriptive Statistics命令項中包括的功能是對單變量的描述統計分析。
Reports包括的統計功能
OLAP Cubes(OLAP報告摘要表): 以分組變量為基礎,計算各組的總計、均值和其他統計量。而輸出的報告摘要則是指每個組中所包含的各種變量的統計信息。
Case Summaries(觀測量列表):查看或打印所需要的變量值。
Report Summaries in Row:行形式輸出報告。
Report Summaries in Columns:列形式輸出報告。
Descriptive Statistics包括的統計功能
Frequencies(頻數分析):了解變量的取值分布情況。
Descriptives(描述統計量分析):了解數據的基本統計特征和對指定的變量值進行標準化處理。
Explore(探索分析):考察數據的奇異性和分布特征。
Crosstabs(交叉分析):分析事物(變量)之間的相互影響和關系。
(2)Compare Means(均值比較與檢驗)
能否用樣本均值估計總體均值?兩個變量均值接近的樣本是否來自均值相同的總體?換句話說,兩組樣本某變量均值不同,其差異是否具有統計意義?能否說明總體差異?這是各種研究工作中經常提出的問題。這就要進行均值比較。
以下是進行均值比較及檢驗的過程:
MEANS過程:不同水平下(不同組)的描述統計量,如男女的平均工資,各工種的平均工資。目的在于比較。
術語:水平數(指分類變量的值數,如sex變量有2個值,稱為有兩個水平)、單元Cell(指因變量按分類變量值所分的組)、水平組合。
T test 過程:對樣本進行T檢驗的過程單一樣本的T檢驗,檢驗單個變量的均值是否與給定的常數之間存在差異。
獨立樣本的T檢驗:檢驗兩組不相關的樣本是否來自具有相同均值的總體(均值是否相同,如男女的平均收入是否相同,是否有顯著性差異)
配對T檢驗:檢驗兩組相關的樣本是否來自具有相同均值的總體(前后比較,如訓練效果,治療效果)
one-Way ANOVA:一元(單因素)方差分析,用于檢驗幾個(三個或三個以上)獨立的組,是否來自均值相同的總體。
(3)ANOVA Models(方差分析)
方差分析是檢驗多組樣本均值間的差異是否具有統計意義的一種方法。
例如:醫學界研究幾種藥物對某種疾病的療效;農業研究土壤、肥料、日照時間等因素對某種農作物產量的影響;不同飼料對牲畜體重增長的效果等,都可以使用方差分析方法去解決。
(4)Correlate(相關分析)
它是研究變量間密切程度的一種常用統計方法,常用的相關分析有以下幾種:
線性相關分析:研究兩個變量間線性關系的程度。用相關系數r來描述。
偏相關分析:它描述的是當控制了一個或幾個另外的變量的影響條件下兩個變量間的相關性,如控制年齡和工作經驗的影響,估計工資收入與受教育水平之間的相關關系。
相似性測度:兩個或若干個變量、兩個或兩組觀測量之間的關系有時也可以用相似性或不相似性來描述。相似性測度用大值表示很相似,而不相似性用距離或不相似性來描述,大值表示相差甚遠。
(5)Regression(回歸分析)
尋求有關聯(相關)的變量之間的關系。在回歸過程中包括:
Liner:線性回歸
Curve Estimation:曲線估計
Binary Logistic:二分變量邏輯回歸
Multinomial Logistic:多分變量邏輯回歸
Ordinal :序回歸
Probit:概率單位回歸
Nonlinear:非線性回歸
Weight Estimation:加權估計
2-Stage Least squares:二段最小平方法
Optimal Scaling:最優編碼回歸
其中最常用的為前面三個。
(6)Nonparametric Tests(非參數檢驗)
是指在總體不服從正態分布且分布情況不明時,用來檢驗數據資料是否來自同一個總體假設的一類檢驗方法。由于這些方法一般不涉及總體參數故得名。
非參數檢驗的過程有以下幾個
Chi-Square test:卡方檢驗
Binomial test:二項分布檢驗
Runs test:游程檢驗
1-Sample Kolmogorov-Smirnov test:一個樣本柯爾莫哥洛夫-斯米諾夫檢驗
2 independent Samples Test:兩個獨立樣本檢驗
K independent Samples Test:K個獨立樣本檢驗
2 related Samples Test:兩個相關樣本檢驗
K related Samples Test:兩個相關樣本檢驗
(7)Data Reduction(因子分析)
(8)Classify(聚類與判別)等等
以上就是數值統計分析Analyze菜單下幾項用于分析的數值統計分析方法的簡介,在我們的變量定義以及數據錄入完成后,我們就可以根據我們的需要在以上幾種分析方法中選擇若干種對我們的問卷數據進行統計分析,來得到我們想要的結果。
Step 04
結 果 保 存
我們的SPSS軟件會把我們統計分析的多有結果保存在一個窗口中,即結果輸出窗口(output),由于SPSS軟件支持復制和粘貼功能,這樣我們就可以把我們想要的結果復制粘貼到我們的報告中,當然我們也可以在菜單中執行file->save來保存我們的結果。一般情況下,我們建議保存我們的數據,結果可不保存。因為只要有了數據,如果我們想要結果的,我們可以隨時利用數據得到結果。
以上便是處理問卷的四個步驟,四個步驟結束后,我們需要SPSS軟件做的工作基本上也就結束了,接下來的任務就是寫我們的統計報告了。值得一提的是,SPSS是一款在社會統計學應用非常廣泛的統計類軟件,學好它將對我們以后的工作學習產生很大的意義和作用。
End.
作者:冷泉
來源:豆瓣
本周直播
數據分析師:考研如何選專業
想從事數據分析師的你,為了什么而考研?
1.本科院校不夠理想,面試頻頻受阻?
2.明確未來的發展方向,想深造自己,匹配更適合的專業
本周四晚20:30 數據職場導師匹配你的職業定位,告訴想要從事數據分析師的你,考研應該如何選專業!

logo設計網(www.just4love.cn),專業的logo免費設計在線生成網站,全自動智能化logo設計,商標設計,logo在線生成!
歡迎使用logo設計網制作屬于您公司自己的logo,不僅專業而且經濟實惠,全方位滿足您公司品牌化、視覺化的需求。