我發現了一個很有意思的例子,是關于識別某制造廠的主要能源使用來源。
什么時候適合使用逐步回歸?
當您有許多變量并且想確認有用的預測變量子集時,逐步回歸就是一種合適的分析方法。在 Minitab 中,標準的逐步回歸程序每次都只添加和刪除一個預測變量。當模型中未包含的所有變量的 p 值都大于指定的入選用 Alpha 值,且模型中所有變量的 p 值都小于或等于指定的刪除用 Alpha 值時,Minitab 停止。
除了標準逐步法外,Minitab 還提供另兩種逐步程序:
* 向前選擇法:Minitab 以模型中沒有任何預測變量開始,并為每個步驟添加最顯著的變量。當模型中未包含的所有變量的 p 值都大于指定的入選用 Alpha 值,Minitab 將停止。
* 向后消元法:Minitab 以模型中包含所有預測變量開始,并刪除每個步驟的最小顯著項。當模型中包含的所有變量的 p 值都小于或等于指定的刪除用 Alpha 值時,Minitab 將停止。
逐步回歸示例
本示例使用逐步回歸識別主要的能源使用來源。制造廠的分析師考慮了以下預測變量:生產產品總數、設備總運行時間、員工人數、平均室外溫度、最低室外溫度、最高室外溫度、日照百分率以及設備平均壽命。但值得注意的是,當預測變量達到 100 個以上時,逐步回歸會非常有用!
他們的目的是將這些變量縮小到能源使用的主要預測變量列表中。為得到最終模型,在 Minitab 中選擇統計 > 回歸 > 逐步,并輸入響應“能源”和上面的預測變量列表來完成對話框。
他們的目的是將這些變量縮小到能源使用的主要預測變量列表中。為得到最終模型,在 Minitab 中選擇統計 > 回歸 > 逐步,并輸入響應“能源”和上面的預測變量列表來完成對話框。
他們得到了下面的模型,該模型中包含了設備總運行時間、最高溫度和設備平均壽命三個預測變量。Minitab 刪除了其他變量,因為這些變量的 p 值大于入選用 Alpha 值。
為獲得最終模型,分析師選擇統計 > 回歸 > 回歸,并通過將“能源”作為響應,且三個顯著變量作為預測變量來完成對話框。(要檢查殘差圖,在對話框中選擇圖形,然后在殘差圖下,選擇四合一。)
以下回歸方程表明,隨著設備總運行時間、最高溫度和設備平均壽命的增加,能源使用也相應增加:
根據 T 統計值,設備總運行時間的影響最大,最高溫度次之,然后是設備平均壽命。
通過分析,分析師可以得出這樣的結論:由于大量使用空調,能源使用顯著增高;而較新的設備看上去降低了能源使用。工廠可能想要在持續使用空調的高峰期限制設備的運行,并考慮在夏季來臨前購置新設備。
P逐步回歸的陷阱
雖然逐步回歸能幫助我們了解很多,但也存在一些需要注意的潛在陷阱:
· 如果兩個獨立變量高度相關,那么即使他們都很重要,模型中可能只包含其中一個。
· 由于該程序可以擬合許多模型,因此可能只是偶然的選擇了恰好擬合數據的模型。
· 對于給定數量的預測變量,逐步回歸可能不會總是以具有最高 R2 值的模型結束。
· 自動程序無法考慮分析師可能掌握對數據的特殊知識。因此,所選的模型可能不是最實用的。
· 根據響應來繪制單個預測變量圖通常具有誤導性,因為圖形沒有考慮模型中的其他預測變量。
審核編輯黃宇
-
能源
+關注
關注
3文章
1975瀏覽量
44425 -
Minitab
+關注
關注
0文章
196瀏覽量
12050
發布評論請先 登錄
將DMACB寄存器中的RC位設置為1來在DMA傳輸結束時重新加載計數器,什么時候將需要重新加載的值存儲在FM3中?
DLPC6401什么時候可以只用Nand Flash或者EEPROM單獨對DLP進行配置?
ADS1204 CLKSEL置1時,如何采集數據?怎么知道什么時候是最高位?什么時候是最低位?
ADS1115的Config Register在什么時候配置比較好?
基于移動自回歸的時序擴散預測模型

評論