• /  52
  • 下載費用: 15.00積分  

環境統計學舊版教學教案 Chap. 6.ppt

'環境統計學舊版教學教案 Chap. 6.ppt'
第六章 多元統計分析初步Chapter 6Basis of Multivariate Statistical Analysis如前所述——現有統計方法可以對某個指標的均值、總體方差進行比較如不同養殖戶養殖池內水體溶解氧的測值不同印染廠排水口酸性廢水的酸度值廣州城區各個測站PM2.5的測值But當你面對多個取值的時候,怎么破??!現有統計方法難以對多個指標的均值、總體方差進行比較如不同養殖戶養殖池內DO、氨氮、pH值的測值不同印染廠排水口酸性廢水的pH值、氨氮、COD值廣州城區各個測站PM2.5、NOx 、VOC的測值與我們最貼近的——綜合測評績點統計之——誰是學霸?你覺得現有測評體系合理嗎?科學嗎?環境意識問卷調查不同訪問人群分類Ai (i=1……n)10道選擇題,A、B、C、D四個選項怎么去評價哪一個類群的人群“環保意識更高”?第一節多元統計分析概述為什么需要使用多元統計分析多元統計分析的定義研究多個隨機變量之間相互依賴關系以及內在統計規律多元統計分析的類別包括:多元數據圖表示法、聚類分析、判別分析、主成分分析、因子分析、對應分析、多重多元回歸分析、典型相關分析、路徑分析、多維標度法……本章重點講述日常使用較多的兩種多元統計分析方法聚類分析 vs 主成分分析多元統計分析的應用舉例生態學領域采集了n個水域中某種魚的標本若干個,測量體長、體重、鰭長、頭寬等參數,可以用對應分析將n個樣本劃分成若干個類群(或地理居群、亞種)對某個山峰進行n個樣地植物調查,可以使用聚類分析將樣地劃分為若干類植被類型(森林、灌叢、草甸)環境學領域研究n種污染氣體(如CO、VOC、SO2)與m個氣象因子(風向、風速、溫度、濕度)的相互關系文學領域《紅樓夢》作者的爭議……(施建軍, 2010)第二節聚類分析聚類分析簡介聚類分析 (Cluster Analysis)聚類分析亦稱為群分析研究樣品或參數分類的問題所謂“物以類聚,人以群分”,聚類分析要達到該效果最初源于考古學考古學需要用專業知識和經驗對發掘物進行分類判別(定性)引入聚類分析模型,可以數量化對發掘物進行分類(定量)聚類分析與判別分析、主成分分析聯用,效果更佳聚類分析的性質聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類聚類分析所使用方法的不同,常常會得到不同的結論不同研究者對于同一組數據進行聚類分析,所得到的聚類數未必一致。因此我們說聚類分析是一種探索性的分析方法在聚類分析之前,研究者還不知道獨立觀察組可以分成多少個類,類的特點也無所得知聚類分析的方法一種是“快速聚類分析方法”(K-Means Cluster Analysis),另一種是“層次聚類分析方法”(Hierarchical Cluster Analysis)如果觀察值的個數多或文件非常龐大(通常n>200),則宜采用快速聚類分析方法。因為觀察值數目巨大,層次聚類分析的兩種判別圖形會過于分散,不易解釋層次聚類分析定義層次聚類分析是根據觀察值或變量之間的親疏程度,將最相似的對象結合在一起,以逐次聚合的方式 (Agglomerative Clustering),它將觀察值分類,直到最后所有樣本都聚成一類,“自下而上”分兩類Q型聚類對樣本(個案)進行分類,使具有共同特點的樣本聚齊在一起,以便對不同類的樣本進行分析R型聚類對研究對象的觀察變量進行分類,使具有共同特征的變量聚在一起,以便從不同類中分別選出具有代表性的變量作分析,從而減少分析變量的個數Q型聚類層次聚類分析中,測量樣本之間的親疏程度是關鍵聚類的時候會涉及到兩種類型親疏程度的計算一種是樣本數據之間的親疏程度一種是樣本數據與小類、小類與小類之間的親疏程度樣本數據之間的親疏程度主要通過樣本之間的距離、樣本間的相關系數來度量連續變量的樣本距離測量方法樣本若有k個變量,則可以將樣本看成是一個k維的空間的一個點,樣本和樣本之間的距離就是k維空間點和點之間的距離,反映了樣本間的親疏程度常用的距離測量參數:歐氏距離、歐氏距離平方、切比雪夫距離、布洛克距離、明高斯基距離、Sosine相似度、Pearson相關系數等歐氏距離 (Euclidean Distance):兩個樣本之間各個變量值之差的平方和的平方根歐氏距離平方 (Squared Euclidean Distance):各樣本每個變量值之差的平方和Chebychev距離:樣本所有變量值之差絕對值中的最大值Block距離:各樣本所有變量值之差絕對值的總和Minkowski距離:各樣本所有變量值之差絕對值的p次方的總和,再求p次方根順序或名義變量的樣本親疏程度測量方法對于此類變量,可以計算一些有關相似性的統計指標來測定樣本間的親疏程度也可以通過下面兩個計算公式得到樣本數據與小類、小類與小類之間的親疏程度測量方法小類是在聚類過程中根據樣本之間親疏程度形成的中間類小類和樣本、小類與小類繼續聚合,最終將所有樣本都包括在一個大類中常用的測度方法包括最短距離法 (Nearest Neighbor):以當前某個樣本與已經形成小類中的各樣本距離的最小值作為當前樣本與該小類之間的距離最長距離法 (Furthest Neighbor):以當前某個樣本與已經形成小類中的各樣本距離的最大值作為當前樣本與該小類之間的距離類間平均鏈鎖法 (Between-groups Linkage):兩個小類之間的距離為兩個小類內所有樣本間的平均距離類內平均鏈鎖法 (Within-groups Linkage):與小類間平均鏈鎖法類似,這里的平均距離是對所有樣本對的距離求平均值,包括小類之間的樣本對、小類內的樣本對重心法 (Centroid Clustering):將兩小類間的距離定義成兩小類重心間的距離。每一小類的重心就是該類中所有樣本在各個變量上的均值代表點離差平方和法 (Ward’s Method):在聚類過程中,使小類內各個樣本的歐氏距離總平方和增加最小的兩小類合并成一類R型聚類對研究對象的觀察變量進行分類使具有共同特征的變量聚在一起以便可以從不同類中分別選出具有代表性的變量作分析,從而減少分析變量的個數R型聚類的計算公式和Q型聚類的計算公式是類似的不同的是:R型聚類是對變量間進行距離的計算,Q型聚類則是對樣本間進行距離的計算第三節主成分分析主成分分析簡介主成分分析 (Principal Component Analysis, PCA)實際研究中,多參數之間具有一定的相關性,使問題復雜化例如——環保意識的調查問卷,設定變量參數包括“文化水平”、“收入”、“工作環境”等指標,但這些指標之間存在著或多或少的相關性主成分分析的主要作用將原來指標重新組合成一組新的、相互無關的幾個綜合指標,代替原指標同時根據需要,從中選取幾個較少的綜合指標,而盡可能多地反映原來指標的信息也稱為“主分量分析”,是數學上常用的降維處理方法之一PCA的基本思路如果將選取的線性組合的第一個綜合指標記作F1,則F1的方差越大,其包含的信息越多,F1稱為第一主成分此后可以陸續選取多個主成分,但需滿足如下條件F1的信息不需要在F2中體現n個主成分之間無相關關系,且它們的方差依次遞減PCA的數學模型及幾何解釋PCA的數學模型設有n個樣品,每個樣品觀測p項指標:X1、X2…Xp,則原始數據資料矩陣為: x11 x12 … x1p x21 x22 … x2pX = … … … … xn1 xn2 … xnp用數據數據矩陣X的p個向量作線性組合F1 = a11X1 + a21X2 + … + ap1XpF2 = a12X1 + a22X2 + … + ap2Xp………………………………………Fp = a1pX1 + a2pX2 + … + appXp簡寫成Fi = a1iX1 + a2iX2 + … + aiiXi (i = 1…p)上述方程需滿足: a1i2 + a2i2 + … + aii2 = 1 (i = 1…p)其中系數aij需滿足如下假定:1) Fi與Fj之間不相關2) Fp是X1…Xp一切線性組合中方差最大的線性組合的意義:1) 線性組合在數學上容易處理且效果好2) 每次主成分選取使Fi的方差最大,如不加限制其取值可為∞則失去意義,因此通常限制的要求為a1i2 + a2i2 + … + aii2 = 1 (i = 1…p)PCA的幾何意義主成分是p個變量X1、X2…Xp的特殊線性組合,這些線性組合把X1、X2…Xp構成的坐標系經旋轉后產生新的坐標系新坐標軸使樣品具有最大的方差對于p元正態分布,找主成分的就是找p維空間中橢球體主軸X1X2F1F2PCA的推導運算步驟PCA的計算步驟設有n個樣品,每個樣品觀測p項指標:X1、X2…Xp,則原始數據資料矩陣為: x11 x12 … x1p x21 x22 … x2pX = … … … … xn1 xn2 … xnp1) 原始數據標準化常用的包括指數法、對數法2) 建立變量的相關系數矩陣R3) 求R的特征根以及相應的單位特征向量4) 寫出主成分Fi = a1iX1 + a2iX2 + … + aiiXi (i = 1…p)使用SPSS進行聚類分析Step 1 錄入數據樣本名和變量參數分別錄入本例研究某小學期末考部分同學語數英成績的聚類分組Step 2 運行聚類分析Analyze→Classify→Hierarchical Cluster注意變量(Variables)和指標(Cases)的位置Cluster選項:可設置聚類變量或指標Plolts對話框勾選Dendrogram (樹狀圖)Methods對話框聚類方法聚類距離Statistic對話框除默認選項,還要勾選近似矩陣 (Proximity Matrix)Cluster Membership可設定分組的個數Save對話框Cluster Membership設定分組的個數,可顯示于原數據中STEP 3 結果解釋……表格1 Case Processing Summary概要結果……沒神馬好說的表格2 Proximity Matrix相似性矩陣計算結果列表表格3 Cluster Membership聚類成員組成:按照剛才設定的分類組數量,確定每一個變量的分組組別Dendrogram樹狀圖——直截了當,一目了然原數據分組于最右列生成CLU3,顯示本例被劃分為3組組別號對應每一個變量對于R型聚類和快速聚類分別對應Analyze→Classify→Two-step Cluster和K-means Cluster快速聚類不會輸出樹狀圖,但可用于簡單的分組,其結果同樣會標注組別號碼使用SPSS進行主成分分析Step 1 錄入數據樣本名和變量參數分別錄入本處仍以上例為例Step 2 運行主成分分析Analyze→Data Reduction→Factor將要分析的變量置于Variables對話框Descriptive對話框的選擇需要了解系數,勾選CoefficientsSTEP 3 結果解釋……表格1 Correlation Matrix相關矩陣,各個變量之間的相關系數表格2 Communalities數據提取量表格3 Total Variance ExplainedPCA的過程——Eigenvalues下的total為特征根,意義是主成分影響力度的指標,一般以1為標準,如果特征根小于1,說明這個主因素的影響力度還不如一個基本的變量。所以只提取特征根大于1的主成分表格4 Model Summary最后一個表格可以讓你從中得到主成分計算公式,component代表主成分,三個數字分別代表1、2、3主成分,第一個縱列代表用于主成分分析的變量。表格中的數據表示個主成分在不同變量上的載荷。我們舉一個例子里計算主成分公式:第一個主成分應該是F1=0.729X1+0.827X2+0.126X3+0.859X4+0.766X5+0.760X6注意,公式中的變量都是經過正態化的變量,不是原始值。好文共賞,你——值得擁有……聚類分析(CA)不僅理工科應用,文科也可以應用施建軍.關于以 紅樓夢 120 回為樣本進行其作者聚類分析的可信度問題研究. 紅樓夢學刊. 2010, 5: 318-335主成分分析(PCA)可以解決評價問題,如環境影響評價多指標比較楊曉娟, 王海燕, 劉玲, 李旭, 任麗娜 .東北過伐林區不同林分類型土壤肥力質量評價研究. 生態環境學報. 2012, 21(9): 1553-1560 The End of Chapter 6
關 鍵 詞:
教學 教案 統計學 環境 chap 舊版
 天天文庫所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
關于本文
本文標題:環境統計學舊版教學教案 Chap. 6.ppt
鏈接地址: http://www.476824.live/p-51330183.html
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服點擊這里,給天天文庫發消息,QQ:1290478887 - 聯系我們

本站為“文檔C2C交易模式”,即用戶上傳的文檔直接賣給(下載)用戶,本站只是中間服務平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有【成交的100%(原創)】。本站是網絡服務平臺方,若您的權利被侵害,侵權客服QQ:1290478887 歡迎舉報。

[email protected] 2017-2027 http://www.476824.live 網站版權所有

粵ICP備19057495號 

收起
展開
球探网即时蓝球比分 在线配资 北京pk拾开奖官网 甘肃快3一定牛一 股票趋势选股 股票涨跌与买卖关系 福建快三开奖结果查询结果 哪支股票好 内蒙古十一选五手机版 浙江20选5怎样算中奖 股票k线图怎么看视