Gen AI 很聰明,但工廠更需要機器學習|GOOD科技報 Newsletter26005

 


為什麼設備健康管理仍然離不開 Machine Learning?

當全世界都在談生成式 AI?

近年來,ChatGPT、Gemini、Copilot 等生成式 AI 技術快速崛起,掀起全球企業數位轉型熱潮。從撰寫報告、整理資料、生成圖片到自動客服,生成式 AI 展現出前所未有的能力,也讓許多人開始思考,未來工廠是否也能透過生成式 AI 來管理設備、判斷故障,甚至取代傳統設備監測系統。

然而,當我們真正走進工廠現場,面對機械手臂、衝壓機、打線機、切割機、晶圓搬送設備等高度自動化的生產設備時,會發現一個非常現實的問題:生成式 AI 雖然很聰明,但它其實不知道「這一台設備」正常運轉時應該長什麼樣子。

對於工業設備而言,最重要的問題並不是如何生成一份漂亮的分析報告,而是如何在數萬次、數十萬次重複動作之中,判斷設備是否仍然維持正常狀態。這項工作並非生成式 AI 的強項,而是機器學習真正發揮價值的地方。

更精確地說,工廠需要的不是單純的 AI 回答能力,而是能被現場驗證、能和歷史資料比較、能在製程脈絡中解釋的設備健康模型。生成式 AI 擅長語言與知識整合,但設備健康管理的核心是時間序列、訊號特徵、動作週期、基準偏移與異常趨勢。這些資料並不只是「文字問題」,而是需要透過感測、特徵萃取、模型訓練與持續比對,才能逐步建立出來的設備理解。


因此,在智慧製造場景中,生成式 AI 與機器學習並不是誰取代誰,而是一種分工合作的關係:機器學習負責理解設備,生成式 AI 負責理解人;機器學習負責產生可信賴的設備健康指標,生成式 AI 負責把這些指標轉換成現場主管、維修人員與經營管理層都能理解的決策語言。


設備沒有停機,就是設備沒有問題?

在許多工廠裡,設備管理人員最常遇到的問題之一,就是設備明明沒有停機,卻開始出現良率下降、品質不穩定甚至客戶抱怨等問題。這類問題最麻煩的地方在於,它不會立刻以故障警報的形式出現,而是先以微小偏移、節拍變慢、震動增加、定位誤差或品質波動的形式發生。

以半導體產業為例,一支晶圓搬送手臂每天可能執行數萬次取放晶圓動作。當手臂關節、滑軌逐漸磨耗,軸承開始劣化,或結構產生微小鬆動時,設備控制系統仍然顯示正常,機台依然能夠持續運轉,但搬送精度卻可能已經開始下降。而這個輕微的偏差,可能就會導致晶圓刮傷、破片或定位失準。

同樣的情況也發生在衝壓設備上。衝壓機可能每天重複數千次甚至數萬次加工動作。當模具磨耗、導柱間隙改變或機構疲勞發生時,設備依然能夠完成衝壓程序,但產品尺寸誤差卻逐漸增加,造成後續重工與產品報廢。

問題在於,這些異常通常不會立即造成停機,因此很容易被忽略。當企業發現良率下降時,往往已經產生大量不良品;當設備真正發出故障警報時,問題通常已經惡化到必須停機維修的程度。因此,設備管理最大的挑戰從來不是故障之後如何維修,而是在故障發生之前,如何發現那些看不見的異常徵兆。

這也是設備健康管理與一般維修管理最大的差異。維修管理關心的是「壞了怎麼修」;設備健康管理關心的是「還沒壞以前,哪些訊號已經開始改變」。前者屬於反應式管理,後者則是預測式與預防式管理。


週期性設備最大的敵人不是故障,而是動作偏移?

許多人認為設備異常等同於設備故障,但對於週期性設備而言,真正的風險其實來自於動作偏移。所謂週期性設備,是指每天執行相同或高度重複動作的生產設備,例如晶圓搬送機械手臂、自動化焊接手臂、CNC 工具機、衝壓機、打線機、切割機、自動上下料設備、Stocker 與 Crane 系統。

這些設備的共同特性在於,每一次動作都有固定流程、固定節奏以及固定機械特徵。當設備處於最佳狀態時,每一次動作幾乎完全一致。然而隨著設備老化,滑軌磨耗、軸承劣化、馬達性能衰退、齒輪間隙增加、機構鬆動、潤滑不足等問題會逐漸產生。

這些問題不一定會立即造成停機,但卻會讓設備開始偏離原本的標準動作。也許只是多了 0.1 秒的延遲,也許只是增加微小振動,也許只是搬送位置偏移十幾微米。但對高精度製造業而言,這些微小差異都可能成為品質問題的開始。


動作偏移的可怕之處:它通常比故障更早發生

真正的故障往往只是結果,偏移才是過程。以設備劣化曲線來看,設備通常不會從健康狀態瞬間變成故障狀態,而是先進入「可運轉但品質開始不穩」的灰色區間。這個階段最容易被忽略,因為設備仍然會動,PLC 也沒有報警,操作員也不一定聽得出差異。

但機器學習可以做的事情,就是把這個灰色區間量化。透過每一次動作的波形、頻譜、時間長度、峰值位置、能量分布與相似度變化,系統可以判斷設備是否逐漸偏離原本的正常軌跡。換句話說,機器學習不是等設備壞掉才看見異常,而是在設備「還能動但已經不一樣」的時候,就把變化抓出來。


傳統警報門檻為什麼越來越不夠用?

過去設備監測主要依靠固定門檻管理,例如振動超過 5 mm/s 警報、電流超過 10A 警報、溫度超過 80°C 警報。這種方式對於馬達、泵浦、風機等連續運轉設備也許有效,但對於週期性設備而言,卻存在明顯限制。

因為週期性設備的訊號本身就是動態變化的。以機械手臂為例,一次完整動作可能包含啟動、加速、移動、定位、取放、回位等階段,每個階段都會產生不同訊號特徵。即使是同一台設備,只要加工不同產品、執行不同程式或使用不同速度,訊號模式就可能完全不同。

因此,單純使用固定數值門檻,往往會產生兩種問題:第一種是正常設備被誤判異常,造成現場對系統失去信任;第二種則是真正異常設備沒有被發現,讓風險一路累積到品質事故或停機事故。

門檻管理的限制,本質上是「沒有脈絡」

固定門檻最大的問題不是數值設定得太高或太低,而是它缺乏脈絡。5 mm/s 對某一台設備可能已經偏高,但對另一台設備可能仍在正常範圍;某個頻率峰值在 A 製程可能代表異常,在 B 製程卻可能是正常動作特徵。若系統只看單一數值,而不看設備身份、動作階段、歷史基準與製程條件,就很難做出精準判斷。

這也是為什麼越來越多工廠開始從傳統門檻管理,轉向機器學習監測技術。因為機器學習不是只問「有沒有超過某個值」,而是問「這次動作和過去正常動作相比,有沒有變得不一樣」。這個問題才更接近工廠現場真正想知道的答案。


機器學習真正學習的是設備正常的樣子

許多人以為機器學習是在學習故障。事實上,機器學習最重要的工作是先學習正常。這個概念很像老師傅。資深維修人員之所以能夠快速判斷設備異常,並不是因為他們看過所有故障案例,而是因為他們非常熟悉設備正常運轉時的樣子。只要設備聲音、振動或動作稍有不同,他們就能察覺異常。機器學習其實也是相同原理。

透過感測器收集設備正常運轉數據後,系統會建立專屬於該設備的行為模型。例如正常搬送動作、正常衝壓動作、正常切割路徑、正常打線程序,都會形成設備專屬規範。未來每一次動作執行時,系統都會與規範進行比對。只要出現差異,便代表設備開始發生變化。

這裡最重要的觀念是:工業設備的模型通常不能只靠通用知識。因為每一台設備的安裝方式、負載條件、工件重量、運轉速度、保養習慣與現場環境都不同。即使是同品牌、同型號設備,裝在不同產線,也可能呈現不同的振動特徵。因此,好的設備健康模型必須具有「設備專屬性」,而不是只依靠通用故障百科。


從單點判斷到趨勢判斷:設備健康分數的真正價值

機器學習在設備管理中的價值,不只是判斷某一次動作是否異常,更重要的是建立長期趨勢。單次異常可能只是雜訊、操作條件差異或短暫干擾,但如果相似度持續下降、頻譜特徵逐步偏移、動作時間逐漸拉長,就代表設備健康狀態正在發生系統性變化。

因此,設備健康分數不應被視為單一警報,而應被視為設備狀態的連續性語言。當健康分數從 95 分下降到 85 分,可能代表設備仍可運轉,但已進入觀察區;當健康分數下降到 70 分,可能需要安排檢查;當健康分數持續下降且與良率波動同步,就可能需要立即介入。這種趨勢式管理,正是預知保養與品質預防能夠連結的關鍵。


特徵值清洗才是工業 AI 最重要的核心技術

許多人認為 AI 的重點在於模型演算法。但在工業領域,真正困難的其實是資料處理。工廠設備每天產生大量訊號,包括振動訊號、電流訊號、壓力訊號、聲音訊號。如果直接把原始數據交給生成式 AI 分析,不但效率低,也很難得到準確結果。

因此必須先透過感測器與機器學習流程進行特徵值清洗,將大量原始訊號轉換成具有意義的設備健康指標,例如 Dynamic Similarity(動態相似度)、Frequency Similarity(頻譜相似度)、Health Score(健康度)、Stability Score(穩定度)、Frequency Over Rate(頻率超標率)等。

這些特徵值就像醫院檢驗報告中的血壓、血糖、心率與血氧。醫生不會只看一整段沒有處理過的生理訊號,而是需要經過整理後的關鍵指標。設備診斷也是如此。特徵值讓複雜訊號變得容易理解,也成為後續 AI 分析的重要依據。


資料清洗不是前置作業,而是工業 AI 的成敗關鍵

在工業現場,資料常常比想像中更混亂。例如感測器安裝角度不同、取樣頻率不一致、設備動作未正確分段、異常資料被誤標為正常、維修紀錄不完整、製程參數沒有同步,都會影響模型判斷。若前端資料治理不足,再先進的 AI 模型也只會放大錯誤。

因此,導入設備健康管理時,資料清洗不應被視為工程細節,而應被視為核心能力。企業必須回答幾個問題:哪些資料代表正常?哪些資料應排除?設備動作如何切分?不同產品配方是否需要建立不同基準?維修後是否需要重新建模?模型漂移如何監控?這些問題看似技術性,實際上決定了系統能否長期被現場信任。



生成式 AI 其實無法直接判斷設備好壞

許多人認為,只要把設備數據交給 ChatGPT,就能完成設備診斷。實際上並非如此。假設今天把一張 FFT 頻譜圖交給生成式 AI,它或許能告訴你可能有 1X 頻率特徵、可能存在不平衡現象、可能有對中不良問題。

但它並不知道:這台設備以前長什麼樣子?這個頻率對這台設備而言是否正常?最近三個月是否有變化?與歷史資料相比是否異常?這些資訊都必須來自機器學習建立的設備模型。換句話說,生成式 AI 知道什麼是軸承故障,但機器學習才知道你的軸承是否正在故障。

生成式 AI 的限制在於,它擅長基於大量知識進行推論與表達,但設備健康判斷需要的是具體現場資料、歷史基準與即時比較。若沒有這些基礎,生成式 AI 很容易給出看似合理但無法驗證的答案。對工廠而言,最危險的不是 AI 不會回答,而是 AI 回答得很像真的,卻缺乏現場證據。


工業 AI 需要的是可追溯、可驗證、可行動的答案

設備診斷不能只停留在「可能是軸承問題」這種模糊描述,而應該進一步回答:是哪一台設備?哪一個動作段?哪一個頻段開始變化?從什麼時間開始惡化?與哪一次維修或製程切換有關?是否需要立即停機?或是可以安排在下一次保養窗口檢查?

這些答案需要資料鏈支撐。機器學習提供異常分數、相似度變化、趨勢圖與歷史比較;生成式 AI 則能把這些資料整理成維修建議、風險說明與管理報告。因此,真正可靠的做法不是讓生成式 AI 直接診斷設備,而是讓生成式 AI 站在機器學習已經產生的可信資料上,進行解釋與輔助決策。

導入機器學習監測系統時,企業最容易忽略的三件事

第一,導入前要先定義「要解決的問題」

許多企業導入 AI 系統時,容易從技術出發,先問模型有多準、演算法多先進。但真正應該先問的是:這套系統要解決什麼問題?是要降低非預期停機?降低刮片風險?減少不良品?延長模具壽命?還是讓維修排程更準確?

問題定義不同,資料收集方式、模型設計、警報邏輯與績效指標都會不同。如果沒有先定義清楚,最後很容易變成系統看似很完整,卻不知道要如何判斷成效。

第二,導入中要建立現場回饋機制

機器學習不是一次建好就永遠正確。現場設備會維修、改機、換料、換程式,也會因季節、溫度、負載而改變。因此,系統必須和現場人員建立回饋機制。當系統發出異常提示時,維修人員應回填檢查結果;當設備保養後,系統應記錄事件;當製程條件改變時,模型也應知道資料背景已不同。

這種回饋機制能讓模型逐步成熟,也能讓現場人員感受到系統不是黑盒子,而是可以共同調整的管理工具。

第三,導入後要用管理指標驗證價值

設備健康管理系統的價值,不應只用警報數量衡量。更重要的是要看它是否降低非預期停機、是否縮短異常排查時間、是否減少重工與報廢、是否提升保養排程準確度、是否讓新人也能依據資料做出接近老師傅的判斷。

換句話說,AI 系統不是為了展示技術,而是為了改變管理結果。只有當系統能與 OEE、良率、MTBF、MTTR、維修成本、備品管理與客訴風險連結時,企業才真正把 AI 從展示專案轉化為營運能力。


機器學習負責發現異常,生成式 AI 負責解釋異常

未來智慧工廠最理想的架構,其實是兩種 AI 共同合作。第一層是感測器,負責收集設備運轉訊號;第二層是機器學習,負責建立規範、特徵值清洗、動作比對、健康度評分與異常偵測;第三層才是生成式 AI,負責解讀分析結果、產生診斷報告、提供維修建議與協助決策管理。

如果沒有機器學習提供可靠基礎資料,生成式 AI 就像沒有檢驗報告的醫生,即使再聰明,也難以做出正確判斷。相反地,如果只有機器學習,沒有生成式 AI,系統可能產生大量圖表與分數,卻無法被管理者快速理解,也無法轉換成跨部門溝通語言。

因此,雙 AI 架構的價值在於把「設備訊號」轉換成「管理行動」。機器學習先把複雜訊號轉換成健康指標,生成式 AI 再把健康指標轉換成現場可以採取的行動,例如:建議檢查滑軌潤滑狀態、觀察 X 軸馬達振動趨勢、安排下一次停機窗口檢查模具、比對近期良率下降是否與設備健康分數同步。


半導體產業案例:機械手臂如何避免刮片風險

在半導體工廠中,晶圓搬送手臂是極為重要的設備。每一次搬送動作都關係著產品良率。當 Fork 結構磨耗、滑軌老化或機構鬆動時,設備不一定會停機,但卻可能導致刮片、撞片、定位誤差與良率下降。

透過機器學習建立搬送動作規範後,每一次取放晶圓動作都會被持續比對。當動態相似度下降時,系統即可提前發現異常,避免問題擴大成產品損失。這種方式不只是設備監測,更是品質管理的重要工具。

從「設備異常」延伸到「製程風險」

半導體產線的設備健康管理不能只看維修成本,還必須看製程風險。一支手臂的微小偏移,可能影響的不只是設備本身,而是晶圓刮傷、破片、批量報廢、客訴與交期延誤。因此,設備健康分數若能與良率、破片紀錄、Alarm log、保養紀錄與 Recipe 資料整合,就能從單純維修工具升級為製程風險預警工具。

舉例來說,當某台搬送手臂的動態相似度在兩週內逐步下降,同時某一站點的刮傷率略微上升,即使尚未達到傳統警報門檻,管理者也能提前安排檢查。這種做法能把維修決策從「被警報推著走」轉變為「用數據主動排程」。


衝壓設備案例:從設備監測走向不良品預防

傳統衝壓設備維護大多依靠定期保養。然而模具磨耗速度並不一定固定。有些模具提前劣化,有些模具則仍然維持良好狀態。如果只依靠時間保養,容易造成過度維護、維護不足與不必要成本增加。

透過機器學習監測衝壓動作後,系統可以持續比較每次加工特徵。一旦動作開始偏離正常規範,即可提早安排檢查。企業不再只是等設備壞掉,而是能夠主動避免大量不良品產生。

衝壓監測的重點不只在機台,也在模具生命週期

衝壓產線的品質變異,常常與模具狀態高度相關。模具磨耗、間隙改變、材料批次差異、潤滑條件與送料穩定性,都可能改變衝壓瞬間的振動與力量特徵。若系統能把每一次衝壓動作轉換成可比較的特徵值,就能建立模具生命週期的健康曲線。

這樣的管理方式可以協助企業回答更精準的問題:某組模具是否比預期更快劣化?哪一段加工動作最先出現異常?目前應該立即換模,還是可以維持到下一個排程窗口?這些問題若只靠經驗判斷,很容易受人員能力與班別差異影響;若能透過機器學習量化,就能形成更一致的管理標準。



未來智慧工廠將是機器學習與生成式 AI 的結合

生成式 AI 的出現確實改變了世界。但在工業現場,生成式 AI 並不會取代機器學習。因為設備管理最重要的工作不是寫報告,而是找出異常。機器學習負責學習設備正常狀態,負責清洗特徵數據,負責建立健康模型,負責判斷設備好壞;而生成式 AI 則負責把這些結果轉換成人類容易理解的語言。

因此未來真正成功的工業 AI 架構,並不是單一依靠生成式 AI,而是結合機器學習與生成式 AI 的雙 AI 架構。機器學習負責看懂設備,生成式 AI 負責看懂人。當兩者結合時,企業不只能掌握設備健康狀態,更能進一步提升良率、降低停機風險,並真正實現智慧製造的目標。

對製造業而言,這場 AI 轉型的重點不是追逐最流行的工具,而是建立一套能長期累積、持續學習、被現場信任的設備知識系統。生成式 AI 可以讓知識被更快理解,但機器學習才是讓設備狀態被正確看見的基礎。當工廠能同時做到「看見異常」、「解釋異常」與「採取行動」,AI 才不只是技術名詞,而會真正成為企業競爭力的一部分。

未來的智慧工廠,不會只靠會說話的 AI,而會靠懂設備的 AI。機器學習讓工廠看見設備正在發生什麼,生成式 AI 讓人理解下一步應該做什麼。兩者結合,才是工業 AI 真正成熟的樣子。


了解更多:https://www.goodtechnology.com.tw/blog/26005.html


留言

這個網誌中的熱門文章

您的工具機主軸狀態良好嗎?|Newsletter 19003|固德科技報

沖床品質該如何監測?|Newsletter19008|固德科技報

全面盤點生產耗電關鍵!|GOOD科技報 Newsletter25006