利用人工智慧開發機器視覺系統可能存在的十大陷阱

請登入以使用編寫功能

Session Timeout

Your session is about to expire. Do you want to extend the session?

00:

Extend My Session

利用人工智慧開發機器視覺系統可能存在的十大陷阱

2021年3月31日

查看所有安富利的文章

機器視覺 (MV) 和人工智慧 (AI) 為各類前沿應用程式提供了寶貴的檢測和分析功能。與所有先進技術一樣，該領域也存在一些陷阱，需要小心防範。

借助機器視覺，電子系統可以使用一個或多個電子攝像機、高級光感測器、類比數位轉換器 (ADC) 和數位訊號處理器 (DSP) 觀察周圍的環境和物體。這項技術的原型已經使用數十年，大多數應用都在醫療、國防/航空航太和工業自動化領域。

近年來，3D 傳感技術不斷改進，元件模組的小型化，高品質 CMOS 圖像感測器和功能強大的資料處理器價格大幅調降，機器視覺的應用也呈指数增长。美國知名諮詢公司Grandview 研究預計，全球機器視覺市場將延續目前的爆炸式增長，在 2025 年達到 182.5 億美元，複合年均增長率 (CAGR) 達 7.7%。

機器視覺系統的新市場包括：

工廠自動化和機器人技術： 外觀檢驗、診斷、組裝、移動方式機器人、數位製作、服務機器人、救援機器人
智慧交通系統： 交通監控、自動駕駛車輛、駕駛員安全輔助
安全與執法： 安全監控、攝像網路、遙控感應、水下和惡劣環境作業
生命科學： 農業、林業、漁業、土木/建築工程、商業、體育、時尚、家居等
多媒體： 資料庫存檔/檢索、文檔、文化/遺產、虛擬實境 (VR)/混合實境 (MR)/ 擴增實境(AR)、娛樂
生物醫學： 斷層掃描、內視鏡檢查、電腦輔助診斷、電腦輔助手術、計算解剖學、生物資訊學、護理
人機交互： 面部/手勢/行為/步態/凝視分析、生物識別、可穿戴運算、第一人稱視覺系統

市調公司Gartner 的最新研究稱，到 2025 年：

整合機器視覺的高級駕駛員輔助系統 (ADAS) 在汽車中的滲透率將從目前的 10％提高到 35％。
零售商店應用機器視覺技術之後，可以通過針對性促銷活動促使客流量增長 20％，店鋪利潤率增長 10％。
五大消費類電子產品製造商銷售的所有智慧家電中，20% 將配備機器視覺技術。
接近所有高端智慧手機以及 30% 的基礎智慧手機都將具備機器視覺功能，面部或手勢識別將成為標準的身份驗證機制。

機器視覺最早可以追溯至上世紀 50 年代，當時任職於 RCA 的 P. K. Weimer、S. V. Forgue 和 R. R. Goodrich 合作開發了用於早期電子相機的光導攝像管。光導攝像管借助光電導體作為目標材料來捕獲圖像。上世紀 70 年代末之前，NASA 在大多數具有遙感功能的無人深空探測器上都部署了 RCA 的攝像管相機。

若要成功開發和實施機器視覺解決方案，關鍵是選擇值得信賴的技術合作夥伴，建立必要的硬體元件和軟體框架，提供視覺演算法、攝像頭介面標準、高級分析、人工智慧和機器學習。對於任何企業來說，都有可為之事和不可為之事。我們在此列出了開發現代機器視覺解決方案時需要考慮的 10 大注意事項。

1. 人工智慧開發，資料品質先行： 機器視覺系統若要正常運行，需要獲取、處理、分析和理解圖像，而這些工作均需依靠人工智慧完成。為實現這種理解，首先需要編譯資訊，亦即讓人工智慧用來學習的訓練資料。訓練資料品質越好，人工智慧的品質就越好。由此也可以提高機器視覺系統的性能。如果訓練資料品質低劣或數量不足，將妨礙人工智慧和機器視覺應用取得成功。如果缺乏適當的訓練資料，即使程式設計再好，人工智慧也無法達到預期效果。

2. 功能不斷疊加，漸漸脫離初衷： 開始每個項目時，都要設定一系列合乎實際的期望和有望實現的目標。人類大腦能夠同時處理來自五種感官的資料，並根據這些資料立即採取行動，這是真正意義上的一心多用。通過程式設計處理，機器通常能夠很好地完成單一任務，但在需要學習和執行多項任務時，人工智慧可能遇到困難。初始規劃階段，需要重點關注關係到成敗的主要功能。人工智慧應用的初始版本便執行種類繁多的任務，可能會導致任務無法正確執行，並導致初始結果滿意度欠缺。

3. 視覺的語言： 成功的機器視覺應用不僅需要功能強大的硬體，還離不開高超的程式設計技能。程式設計可以採用人工智慧框架和編碼語言的形式。人工智慧框架可以簡化、加速人工智慧應用開發，包括機器學習、深度學習、神經網路和自然語言處理 (NLP)。人工智慧框架可以充當人工智慧系統的開發範本。與從頭開始開發人工智慧應用相比，這種方法的開發、部署和管理難度都大大降低。有幾種程式設計語言可以與人工智慧配合使用，每種語言都有獨到的優勢。其中包括 Caffe、Python、Pytorch、TensorFlow、C++、Lisp、Java、R、Prolog 和 Model Zoo。

在機器視覺應用規劃階段，必須確定使用內部資源還是外包程式設計。程式師的技能水準如何？打算使用哪種程式設計語言？所選程式設計語言的最佳開發工具是哪種？人工智慧程式和後續更新的編譯難度如何？如何發佈更新？

4. 選擇合適的硬體主器件： 選擇運行機器視覺人工智慧應用程式的硬體時，存在諸多選項。現場可程式設計邏輯閘陣列 (FPGA)、圖形處理單元 (GPU) 以及微控制器 (MCU) 都各有所長。

FPGA: FPGA 是非常強大的處理單元，配置後可以滿足幾乎所有應用程式的需求。可以創建定制的 FPGA 架構來處理特定的應用程式。與其他選項（如 GPU 和 CPU）相比，可以實現更高的性能、更低的成本和更好的能效。

GPU: GPU 是專用處理器，主要用於處理圖像和視頻。與 CPU 相比，其處理單元更簡單，但承載更多的內核。因此，GPU 非常適合需要並行處理大量資料的應用程式，例如圖像圖元或視頻轉碼器。然而，GPU 也存在一些局限性：能耗高，同時由於使用 CUDA 和 OpenCL 等語言進行程式設計，靈活性不及 CPU。

CPU CPU 的核心數量有限，無法快速處理人工智慧所需的大量資料。因此，CPU 僅適用於有效批量較小的小模型。CPU 的優點是易於程式設計、成本較低，同時廣泛支持各類程式設計框架。

除此之外，選擇硬體時還需要考慮能效、設備移動性、IO 數量、操作環境，以及最重要因素 - 成本。最初的計畫階段全面調查並周全考慮，可以避免日後的麻煩。借助所有的處理器和支援組件，獲取足夠的處理能力，為將來需要實現的功能做好鋪墊，同時預備足夠的板載記憶體，用於處理固件升級和人工智慧演算法增長。

5. 圖像感測器和照明： CMOS 感測器的前照式 (FSI) 和背照式 (BSI) 技術取得了巨大的進步，即使在低光照水準下也可以獲得更高解析度的圖像。適當的照明也是重要的考慮因素。所有照明性能的基礎都可以歸結為三種主要的圖像感測器特性：量子效率 (QE)、暗電流和飽和容量。量子效率是設備為特定數量的入射光子所產生的電荷的比率。由於 QE 在不同的波長上會發生變化，因此最好將其繪製為波長的函數。由此，可以實現設備靈敏度的精准測量。安裝在相機內時，由於外部光學和電子效應，相機的最大 QE 應小於感測器。

此外，暗電流和飽和容量也是機器視覺系統設計的重要考慮因素。暗電流測量 CMOS 成像器內熱產生的電子數量變化，以及同時可能帶來的雜訊。飽和容量表示單個圖元可以存儲的電子數。儘管這些參數通常未在相機製造商的資料表中說明，但可以與QE測量值一起，用以計算最大信噪比 (S/N)、絕對靈敏度和應用的動態範圍。

適當的照明有助於提高機器視覺應用程式的準確性和效率。照明需要考慮的其他因素包括波長（例如紅外線）、固定照明甚至照明放置。研究證明，直接照射到機器視覺系統攝像機上的光源和反射物會降低物體檢測的準確性。

6. 背景識別： 背景可能給機器視覺系統帶來特殊的問題。想像一下，安全系統無法偵察到壞人深色外套中的黑色槍支。同樣，工廠環境中的反光金屬物體也可能導致視覺檢測演算法無法正常運行，從而出現此類困難。輔助演算法可以通過關注電磁波 (EM) 光譜的不同波長（例如紅外和自我調整光）來緩解這種情況。

7. 對象的定位和方向： 人工智慧可以説明機器視覺解決方案識別從訓練資料中學習到的物體。如果您使用相同的物體但更改其方向，一些機器視覺系統就會出錯。這種情況可以通過為人工智慧提供精確的訓練集來緩解，但也會導致資料量變得密集。

8. 物體縮放： 我們分別從兩英尺遠和 10 英尺遠的距離看籃球時，知道兩次看到的是同一物體，只是距離不同。在這一點上，多樣化的訓練集和人工智慧的準確測試有助於確保某個距離的物體可以被正確識別。鏡頭和焦距的選擇也直接影響到應用程式的性能。大多數機器視覺系統都讀取圖元值，但若要成功部署到移動應用，縮放方面的考慮同樣不可或缺。

9. 物體變形： 機器視覺系統能夠識別存在微小偏差的同一物體，這種能力在機器視覺應用中至關重要，特別是在交通和安全方面。對於應用的準確性和操作安全性而言，識別四肢有關節的行人極其重要。此處需要再次強調為人工智慧學習提供高品質訓練集的必要性，但同樣導致資料量更密集。

10. 動作和運動： 快速運動/移動會給機器視覺系統帶來問題。對於安全性至關重要的應用而言，這可能帶來致命的危險。這種情況可以通過選擇適當的成像器快門、特殊的程式設計演算法和照明來緩解。廉價的圖像感測器通常使用捲簾快門，這會破壞快速移動的圖像。全域快門可能增加圖像感測器的成本，但卻是適當捕捉快速運動的必要功能。預測和準備能力是判斷人類智力的兩大標準。人工智慧應用程式同樣如此。

有價值的（觀點或結論）

過去五年來，機器視覺技術創新日新月異，採用規模也日益增大，促使相關市場的價值水漲船高，直逼 100 億美元大關。伴隨著這種強勁的增長態勢，人工智慧演算法、處理元件、光源、圖像感測器以及其他相關技術也都得到了飛速發展。市場競爭日趨激烈，保持領先優勢並不容易。

您需要為下一次創新選擇合適的技術合作夥伴，以便提高效率，降低潛在風險並最大程度地提高盈利潛力。為了幫您實現目標，安富利可以為您牽線搭橋，與機器視覺系統領域值得信賴的全球技術合作夥伴建立連接。由此，您可以更好地將寶貴的資源集中在智慧財產權創新及其他競爭優勢明顯的領域。我們將與您緊密合作，全力提供所需支援，説明您的產品在市場中脫穎而出，縮短產品上市時間，贏取更多生意。