SoftMax Pro 7——曲線擬合方式新標準

 



為什麼曲線擬合(Curve fitting)如此重要?

 

當需要定義一個資料的特徵時,如變化的比例、曲線上下邊的漸近線或者 EC50/IC50 值時,選擇正確的曲線擬合方式是十分關鍵的。

 

選擇的曲線擬合方法需要準確反映兩個已知變數(x,y)的關係。換言之,曲線擬合的目的就是為了尋找更合適的公式和參數來匹配資料。

 

本文將以線性非線性回歸分析為例,並手把手教學如何利用標準方差赤池信息量準則(AIC)來評估選擇的擬合方式是否更合適。


SoftMax Pro 軟體提供了 17 種非線性曲線擬合方式。

它包括:二次方擬合,三次方擬合,四次方擬合,log-logit,cubic spline,指數函數,直角雙曲線,兩參數指數函數,雙指數函數,雙直角雙曲線,兩點競爭,高斯擬合,Brain-Cousens,四參數擬合(4P),五參數擬合(5P)和五參數交替擬合(5P alternative)。SoftMax Pro 軟體使用廣泛使用的反覆運算過程,Levenberg Marquardt 演算法(註1),來獲得更合適的非線性擬合方式。






其中4P5P曲線擬合是最常見的兩種非線性曲線擬合方式,也都適用於 S 形曲線的回歸分析(圖 1)。這類曲線擬合方式需求至少 4 個或 5 個資料點,使用 6 個以上的資料點能夠提昇準確度。



4P曲線擬合公式為:



4P曲線是一個對稱的曲線,曲線的一側和另一側以 C值為中心點完全點對稱。然而,對一些免疫實驗或生物測試的資料,其資料圖形並不對稱,因此需要額外的變數來衡量該資料的複雜性。為此,五參數擬合方式能夠通過引入一個新的參數 G(圖二)很好的反映出這類資料的特徵。



 

5P曲線擬合的公式為:



但是需要說明的是,當 G 值很小或者需要平行線(PLA)分析時,建議使用4P擬合方式效果更佳。



 




如何選擇更佳的曲線擬合方法??

        曲線擬合後的好壞,尤其是標準曲線的建立,需要使用精準的資料來對其進行評估。單次實驗隨機性會使曲線擬合的效果很差,因此多重覆的實驗設置對於獲取好的曲線擬合十分重要。

R2 值是評估曲線擬合好壞的常用指標,如果R2 > 0.99 時,我們會認定曲線擬合效果接近完美。

 


理想狀態下,標準差在所有濃度樣品下都應該一致(同方差),但更多現實情況是,當標準差可能隨著樣品的濃度產生變化(異方差),此時R2 值的評估可能失準,需要新的指標來衡量。

        F 分佈下的統計量方法進行的誤差平方和法(SSE赤池信息量準則(AIC可以用來標準化這些異方差資料,這兩種方法在衡量測定值和選擇的擬合曲線的理論值之間的誤差時十分相似。其中SSE 方法因為需要使用殘差和殘差圖,又被稱為殘差平方和法


殘差的定義是指在每個選定濃度下,實際的反應值 y 和所選擬合曲線所得的理論反應值 y′ 的差異性,


殘差 = 測定資料-擬合數據 = y - y′


殘差代表的是隨機偏差。因此,當曲線擬合方式符合資料時,殘差圖中點的分佈應該是圍繞 y = 0 軸線的隨機分佈(圖 2A)。
如果殘差圖中的點分佈情況是有規律的(圖2B),表示目前曲線擬合效率不足,還需要更多參數修正來描述資料趨勢。



 


 


SSE 方法概念】

最小平方法(SSE)可用於擬合廣義線性模型,一般歸功於高斯(Carl Friedrich Gauss1795),但早是由阿德里安-馬里·勒讓德(Adrien-Marie Legendre)首先發表的。

 


SSE = Σ wi (yi - ŷi)2

假設資料誤差是不相關的且符合正態分佈,SSE 越小代表擬合模型越貼近估算原始資料。以上述4P vs 5P方法為例,如果兩種方法都能符合(R>0.99),那麼可進一步選擇最小的 SSE的方法擬合。

 

某些特殊狀況下,如果兩種受評估擬合方式本身是嵌套關係(例如四參數擬合就是五參數擬合當 G = 1 時的特殊情況),擁有更多參數的一方的SSE必定更小。因此,還需進一步計算 F-test F-probability值來驗證。如F probability < 0.05 時,說明該擬合曲線的公式很匹配資料。



 




AIC 方法概念】

AIC法是評估統計模型的複雜度和衡量統計模型「擬合」資料之優良性(Goodness of Fit)的一種標準,由日本統計學家赤池弘次創立和發展的。

 


AIC = n* log (SSE/n) + 2K

這裡 n 代表樣本量,K 是描述曲線的參數數量

當樣本量小時 (n /K < ~40),則使用二階的 AIC (AICc)

AICc = AIC + 2K* (K + 1) / (n - K - 1)

當樣本量增加時,AICc會收歛為AIC。此法的優點在於減少了使用參數,即一個很少參數的曲線擬合公式依然能夠是更合適的擬合方式。實務上,我們會選擇 AIC 值較小的曲線擬合

 

上述兩種方法都可以用來評估曲線擬合方法的合適度,但要注意此兩種方法均不能用於H0檢測的模型。另外,如果找不到最佳適合度的的擬合方法時,理論上選擇最接近的公式擬合即可,或請諮詢統計學的專家顧問及MolDev的技術諮詢團隊(Tech support )






以下資料為例, 所要分析的資料使用4P(圖 3A)和5P(圖 3B)兩種公式進行擬合,皆得 R2 = 1.00



此時我們可以進一步查看summary報告中(圖4)的計算結果。

SSE 方法欄顯示,系統判斷5P適合度更高,

因為SSE(5P) = 0.027 , 低於四參數的 SSE(4P) = 0.058

 

4P vs 5P符合文中所提的特殊情況,需要再查看F test (61.538) F probability (0.000),才能肯定5P方程式更適合此資料組。



此範本也可顯示「殘差圖」結果(圖 5),本例中兩種擬合方式皆符合資料點隨機分佈在 X 軸附近,表示參數應該達最佳化。

 

 

報告中也同樣檢附AIC法評估分析(圖4下方:Supporting information)




AIC (5P)= -447.945,小於AIC(4P) = -405.365系統判斷5P適合度更高。


 





同場加映 !!

SoftMax Pro 還提供更加簡單、直覺的「參數獨立性(Parameter independence)」,來測量兩個以上參數之關聯的限度和範圍。

 




只需在Curve setting對話框中,Statistics分頁勾選“Calculate parameter dependencies”即可(圖6)

完成後即在Graph下方參數欄以bar值顯示Independence

Indep.= 1 (滿格),表示該參數完全獨於其他參數。








圖7的「參數獨立性」的運作原理是:如果在曲線擬合完成後,改變曲線的一個參數,那麼新的曲線應該是遠離資料點的。在此時,如果改變另一個參數的值能夠補償固定參數並使曲線向資料點靠近,但是和原始曲線設置不同,那麼這些參數是關聯性。相反地,如果曲線回到了原始的位置,那麼這些參數是贅餘的。

 

如果多個參數 bar 很小或沒有的話,表明該擬合方式對資料組是不匹配的。舉例,如果資料是具有很明顯上限和下限漸近線的 S 型曲線,那麼一個四參數擬合將適用於該資料,所有參數應該都具有很高的 bar 值。但如果一條或兩條漸近線都沒有的話,則參數 A D bar 值將會很小,表明無法從資料中推導出可靠的參數值。



 






















留言

這個網誌中的熱門文章

[Press News] New Strategic Partnership to Advance Intelligent Organ-on-Chip Technology in Drug Development!

【應用專輯】如何使用螢光法評估細胞健康狀態

【專家開講】探討類器官研究中3D影像的複雜性與優勢