行業新聞
談談工業數據建模
2021-12-16模型應用的場景
數據建模的基礎
很多人認為,工業數據建模的原因是“原理不清楚”。事實上,工業對象都是物理對象,都符合自然科學的規律。工業對象是人造對象。人們建立物理的工業對象時,往往也都是在科學原理的指導下做成的。 有些人不明白:既然科學原理清楚了,為什么還要建立模型。工業人建立模型的原因有兩個:首先是科學模型是抽象的、工業模型是具體的。從抽象走到具體,需要給出若干參數。而這些參數并不一定容易獲得。其次,科學原理針對的都是簡單對象,工業對象卻往往是復雜的系統,需要大量的參數。參數多的問題是:如果參數準確度不高,理論模型的精確度就會低到難以忍受的程度,無法滿足工業生產的需要 下面給出一個形象的說法:某個工業對象可以用函數Y=F(X)描述,假設它的理論模型是。應用模型時必須依靠現實中能夠獲得的數據?,F實中,X往往是無法準確、及時獲得。這時,人們要設法在可以得到的數據中,尋找一些與X相關的變量,如Z。于是,現實的數據模型往往就變成Y=H(Z)。 某廠發現:一種材料的合格率與生產這種材料的班組有關。事實上,合格率與某個工藝參數有關,不同班組采用的工藝參數不一樣。但每個班組采用的參數不同、也沒有記錄。所以,人們看到的是合格率與班組有關。在這個例子里,工藝參數就是X,而班組就是Z。 人們經常發現:材料的性能與生產的季節相關。本質上,材料的性能與生產材料時的溫度、濕度、空氣流動的綜合情況有關。在這里,溫度、濕度、空氣流動情況是人們需要的X,而生產季節就是Z。 人們預報鋼水溫度時,采用了一個經驗做法:如果盛放鋼水的鋼包是第一次使用,則鋼水溫度降低5度。真正的原因是:鋼包第一次盛放鋼水時,鋼包壁是比較冷的,鋼水溫度降低得更快。但是,人們容易得到使用次數的參數,卻不容易得到鋼包壁溫度相關的參數。 變量的選取是非常重要的。變量的選擇不同,最終的模型就不一樣。其中,一個重要的差別是:模型的精度和適用范圍不一樣。對科學理論模型來說,模型的精度高往往意味著適用范圍大,而現實的模型則不一定。從這種意義上說,模型精度未必是是越高越好。 工業企業追求穩定,而模型往往用來應對不穩定的工況。工況穩定的時候,參數波動的范圍往往較小,簡單的線性模型往往就可以奏效。復雜模型往往用于不穩定的場合。用于不穩定的場合時,對模型適用范圍的要求就會比較大。 有些人開發的模型精度比較高,卻不能得到生產廠的認可。背后的原因是:模型在生產穩定的時候精度很高,在生產不穩定的時候精度較低。由于多數時間的生產是穩定的,模型的平均精度往往較高。但是,生產穩定的時候,工人對模型沒有需求;工人對模型有需求的時候,往往是生產不穩定的時候。 模型精度和適用范圍的矛盾,是建模時最常見的問題之一。 03
工業大數據時代的機會
大數據時代的重要機會,就是可以用簡單的方法建立好的模型。 從A地到B地時,要找到一條速度最快的路徑。理論上講,建立相關模型時需要給出許多參數,如距離、行駛速度等。而行駛速度,受到各種不確定因素的影響。在大數據的背景下,這個問題就容易解決了:看看其他人怎么走的、花了多少時間。找到合適的走法,按照他們的路子走就是了。為了提高精度,還可以根據日期、時段和道路事情情況做些修正。 事實上,工業大數據的方法,早已出現在前人的實踐中。這類方法的基本思路就是:找一個類似的做法,在此基礎上進行修訂。 鋼水冶煉前,需要給出合適的工藝參數。計算過程涉及到很多參數,不容易算對。解決這個問題的思路:先從歷史數據中找類似的成功案例。以此為基礎,根據案例爐與本爐次的參數差異進行修正。 熱軋帶鋼軋制結束后,需要確定冷卻水閥門的打開組數,以便冷卻到特定的目標溫度。在冷卻過程中,冷卻速度受鋼種、厚度、起始溫度、冷卻目標溫度、冷卻水溫度等多個因素的影響,純粹的機理模型很難準確計算。解決問題的辦法是對帶鋼進行分組,在每個分組內確定一組與冷卻速度有關的參數。在此基礎上,對具體帶鋼參數進行變換、得到對于的冷卻制度,并根據實測結果對參數進行修訂。在某些鋼鐵企業,響應的分組有幾萬個。 我們注意到:上述方法其實解決了模型的應用范圍大和精度要求高之間的矛盾。外表上看,模型適合于各種產品、應用范圍很大。在這個范圍內,模型本質上可能是非線性關系。但是,通過尋找類似的案例,就自然地回避了非線性問題。而歷史的案例,本質上是實踐積累的結果。具體地看,非線性模型本質上是由若干個小模型組成的,每個模型的應用范圍很小。這樣,就可以在每一個小的范圍內設法提高模型的精度。在這個小的范圍內,參數的影響往往可以用線性模型或者廣義線性模型近似。在范圍足夠小的時候,人們就可以采用反饋調節等手段,進一步提升模型的精度。 我們曾經提到:工業對象復雜、對精度要求高的時候,知識往往來自于實踐。上述辦法本質上就是把實踐中行之有效的做法記下來,用于指導下次的實踐。從本質上講,這種辦法與PDCA持續改進的思想是一致的。但這種持續改進是由計算機自動完成的。 對從事算法研究的人來講,上面的思想其實并不新穎。所謂近鄰方法、CBR方法、模式識別、R2R等方法,基本上就是這個思路。但是,在過去數據基礎有限的條件下,這些方法不一定能用好。比如,人們可能找不到相同或者類似的案例。 在筆者看來,工業大數據的根本優勢是數據的質量好。質量好的一個方面,就是數據分布范圍大,覆蓋了各種可能發生的情況。這就是所謂“ 樣本等于全體”。在這樣的前提下,就總能從歷史上找到類似的案例。所以,大數據的本質優勢是數據來源全面,而不是數量多到什么程度。如果數據存儲得足夠久、場景存儲得足夠多,新問題就會越來越少,這類方法就容易走向實用了。 以設備故障診斷為例。針對單臺設備研究問題時,故障樣本就少,甚至每次都不一樣。但是,如果把成千上萬臺設備的信息收集起來,情況就不一樣了:每次出現問題,都容易在歷史數據庫中找到類似的案例。這時,人們研究的重點,往往是如何利用理論的指導,更加準確地尋找類似案例、更加準確地修正。 “戒煙最容易了:我都戒過100多次了”。 從事數據建模工作時,往往就會遇到這樣的問題:用一批數據建立數學模型,結果非常理想。但不久以后,精度卻很快降低下去、無法繼續使用。所以,許多結果很好的學術論文,在現實中卻是沒有用的。為什么會出現這樣的問題呢? 有個小朋友說:穿紅裙子的人是我的媽媽。在特定的時間、特定的地點,小朋友的話是正確的。但如果換了一個場景、換一個日子,這個判別標準可能就錯了:媽媽可能不穿紅裙子了,穿紅裙子的女士也可能有很多個。 數據建模的失效常常也是類似原因導致的:當場景變化時,模型很容易失效。要解決這樣的問題,必須綜合運用多個方面的特征。 許多人臉識別算法非常成功。有的算法在人臉上找到了一百多個特征。識別時綜合考慮這些特征,就不容易出錯了。有些罪犯過了幾十年、相貌發生了很大變化,機器仍然能識別出來。 在大數據時代,數據的完整性很好。人們有可能找到若干獨立的特征進行綜合。這樣,模型識別的準確率就大大提高了。
04
第四范式與科學規律發現
自然科學規律本質上也是用數學模型描述的。自然科學規律的特點是:模型精度高、適用范圍大。我們前面曾經提到,經典科學原理往往有個特點:變量的數目非常少。這背后有個重要的原因: 科學結論都是需要經過嚴格檢驗和論證的。按照科學哲學的觀點,科學理論的基本特征是可證偽性。所謂的可證偽性,就是理論上存在一種驗證辦法,如果驗證結果與理論不符,就可以證明理論是錯的。如果一個理論涉及到的因素少,就容易證偽。 復雜問題的影響因素多,不容易嚴格論證。例如,新藥的開發困難,就與此有關。在大數據時代,這類問題可能得到改變。圖靈獎得主吉姆·格雷(Jim Gray)將科學研究分為四類范式(Paradigm)即實驗歸納,模型推演,仿真模擬和數據密集型科學發現。其中,最后一種就是通過大數據發現科學知識。 理論上講,許多工業過程都可以用科學公式來描述。但現實的影響因素太多?;?、冶金等行業的一種典型的現象是:在同一個生產過程中同時存在著幾十種化學反應。每個化學反應都可以用簡單的化學反應方程來描述。但反應之間互相影響,許多參數會動態變化、無法準確確定,整體的化學反應過程就很難準確描述。 鋼鐵材料中的很多物理和化學變化是在固體中進行的、反應過程不充分、不徹底。故而導致產品質量與工藝過程密切相關。鋼鐵產品的力學性能是多種元素的含量和工藝參數綜合影響的結果。力學性能與影響因素都是可以測量的物理量,而成分和工藝可以決定性能。理論上講,存在一個科學的公式來描述性能與成分、工藝的關系。 對于這樣的情況,傳統的辦法很難建立準確的模型。除了問題本身復雜外,一個重要的原因就是許多干擾是不可見的。這就會對模型的驗證帶來巨大的困難。 在大數據的背景下,為解決這類困難提供了可能。一個重要的原因是:當數據量足夠大的時候,隨機干擾是可以通過平均的方法濾除的。這相當于數據的精度可以大大提高。同時,大數據還可能為人們提供較好的樣本分布,有助于復雜問題的解耦,即把復雜的、變量多的模型簡化成若干變量數目少的簡單模型。模型簡單以后,也便于科學地驗證。 模型簡化的過程,其實是一個猜測和排除的過程。這一點和傳統的科學研究非常類似。是一個循環往復、不斷深入的過程,需要不斷地進行定性判斷和定量的估計。在這個過程中,科學知識和數據中反映出來的現象可以共同起作用。人的經驗也是非常重要的:優秀的專家往往“猜得準”,能夠提高研究的效率和成功率。 需要特別指出的是:這樣的研究并不能保證成功。成功的必要條件是數據本身決定的。一定數量的科學實驗和仿真研究也是必要的。
本文地址:http://www.orbwallpaper.com/news/IndustryNews/281.html
上一篇:工廠的十二大隱形成本!
下一篇:從倉儲與供應鏈兩個方面談庫存管理