深度學習在過去十年徹底革新了電腦視覺領域。這一切的起點可以追溯到卷積神經網絡 (CNN)的崛起,透過獨特的卷積核設計,層層堆疊,從邊緣、紋理到複雜的物件結構,構建出強大的視覺表示能力。從開創性的 AlexNet 誕生標誌著 CNN 時代的開啟,隨後 ResNet 等架構的提出更解決了深層網絡訓練的難題,將CNN 推向頂峰。
然而,隨著 Transformer 架構挾其強大的全局關聯捕捉能力 (Attention Mechanism) 開始引起視覺研究者的關注。Vision Transformer (ViT) 的誕生,證明了 Transformer 能直接處理圖像序列,並在多項任務中超越傳統 CNN,正式開啟了視覺領域從 CNN 到 Transformer 的典範轉移新篇章。
本課程將深入探索剖析為何在圖片分類、語意分割、物件偵測、生成模型乃至自動駕駛等關鍵視覺任務中,模型架構正經歷著從 CNN 到 Transformer 的深刻變革。在圖片分類任務中,Transformer 透過捕捉全局上下文信息,進一步提升了分類的準確性;在語意分割和物件偵測等需要精細定位的任務中,Transformer 的注意力機制能更有效地建模物件間的長距離依賴關係,從而實現更精確的分割與偵測結果。生成模型領域,從早期的 GANs 到如今爆紅的 Stable Diffusion 等 Diffusion Models,Transformer 的引入使得生成高品質、高解析度的圖像成為可能,並帶來了強大的可控性。
應用案例將分享將針對自動駕駛這個高度整合多種感測技術的應用場景中,Transformer 更展現出處理多模態數據(如相機、雷達)和時序信息的巨大潛力,為更安全、更智慧的自動駕駛系統奠定了基礎。本課程將帶領您深入理解這些技術背後的原理,掌握如何應用這些先進模型解決實際問題,為進入高階 AI 應用領域奠定堅實基礎。
課程目標- 熟悉Python此程式語言以及PyTorch此深度學習框架
- 協助具影像處理專長之學員切入電腦視覺/深度學習領域
- 學會在應用各種CNN與Transformer模型解決各種電腦視覺的工業應用
- 未來可銜接各類進階深度學習課程
- 學會在應用各種CNN與Transformer模型解決各種電腦視覺的工業應用
- 未來可銜接各類進階深度學習技術或想掌握深度學習視覺技術的工程與研究人員
- 影像處理、電腦視覺、自動駕駛相關從業者
- 欲了解 CNN 與 Transformer 於各項視覺任務應用的開發者
- 具程式基礎、希望進入 AI 領域的學生與轉職者
|
課程大綱 |
內容 |
| CNN與Transformer於圖片分類人臉辨識/瑕疵檢測之原理與實作 |
|
| 語義分割模型簡介 |
|
| 物件偵測模型簡介 |
|
| GAN生成模型簡介 |
|
| Diffusion生成模型 |
|
|
自駕車的影像辨識模型 |
|
★本課程所有程式都將在Colab此雲端平台上開發,會提供所有實作範例資料及程式碼