PyTorch深度學習CNN與Transformer影像辨識與生成模型實作

課程介紹

深度學習在過去十年徹底革新了電腦視覺領域。這一切的起點可以追溯到卷積神經網絡 (CNN)的崛起，透過獨特的卷積核設計，層層堆疊，從邊緣、紋理到複雜的物件結構，構建出強大的視覺表示能力。從開創性的 AlexNet 誕生標誌著 CNN 時代的開啟，隨後 ResNet 等架構的提出更解決了深層網絡訓練的難題，將CNN 推向頂峰。

然而，隨著 Transformer 架構挾其強大的全局關聯捕捉能力 (Attention Mechanism) 開始引起視覺研究者的關注。Vision Transformer (ViT) 的誕生，證明了 Transformer 能直接處理圖像序列，並在多項任務中超越傳統 CNN，正式開啟了視覺領域從 CNN 到 Transformer 的典範轉移新篇章。

本課程將深入探索剖析為何在圖片分類、語意分割、物件偵測、生成模型乃至自動駕駛等關鍵視覺任務中，模型架構正經歷著從 CNN 到 Transformer 的深刻變革。在圖片分類任務中，Transformer 透過捕捉全局上下文信息，進一步提升了分類的準確性；在語意分割和物件偵測等需要精細定位的任務中，Transformer 的注意力機制能更有效地建模物件間的長距離依賴關係，從而實現更精確的分割與偵測結果。生成模型領域，從早期的 GANs 到如今爆紅的 Stable Diffusion 等 Diffusion Models，Transformer 的引入使得生成高品質、高解析度的圖像成為可能，並帶來了強大的可控性。

應用案例將分享將針對自動駕駛這個高度整合多種感測技術的應用場景中，Transformer 更展現出處理多模態數據（如相機、雷達）和時序信息的巨大潛力，為更安全、更智慧的自動駕駛系統奠定了基礎。本課程將帶領您深入理解這些技術背後的原理，掌握如何應用這些先進模型解決實際問題，為進入高階 AI 應用領域奠定堅實基礎。

課程目標

熟悉Python此程式語言以及PyTorch此深度學習框架
協助具影像處理專長之學員切入電腦視覺/深度學習領域
學會在應用各種CNN與Transformer模型解決各種電腦視覺的工業應用
未來可銜接各類進階深度學習課程

課程對象

學會在應用各種CNN與Transformer模型解決各種電腦視覺的工業應用
未來可銜接各類進階深度學習技術或想掌握深度學習視覺技術的工程與研究人員
影像處理、電腦視覺、自動駕駛相關從業者
欲了解 CNN 與 Transformer 於各項視覺任務應用的開發者
具程式基礎、希望進入 AI 領域的學生與轉職者

課程大綱

課程大綱	內容
CNN與Transformer於圖片分類人臉辨識/瑕疵檢測之原理與實作	Alexnet VGG Googlenet ResNet Vision Transformer(ViT)
語義分割模型簡介	從FCN到DeepLabv3+，基於Transformer更為強大的SETR 可透過文字/UI介面實現的語義分割模型Segment Anything Model (SAM)
物件偵測模型簡介	基於CNN的2D物件偵測模型YOLOv1-v13, 3D物件偵測模型FCOS-3d Transformer-based的2D物件偵測模型DETR, Anchor DTR, RT-DETR以及3D物件偵測模型DETR-3D
GAN生成模型簡介	影像生成GAN，DCGAN, StyleGAN, BigGAN, VQ-GAN 影像轉換GAN，Pix2pix與CycleGAN; 超解析度模型:SRGAN 去模糊模型: DeblurGAN; 結合Transformer的GAN模型：VQ-GAN 基於Transformer與GAN的人臉模糊影像還原模型：CodeFormer。
Diffusion生成模型	影像生成DDPM, DDIM 與 Classifier-free guidance 影像轉換：Palette, Latent Diffusion Model 影像編輯：InstructPix2Pix; Stable Diffusion 及其微調：Controlnet, Dreambooth, LORA, Textual Inversion
自駕車的影像辨識模型	多攝影機之鳥瞰物件語意分割模型：SimpleBEV 多攝影機之3D物件偵測模型:DETR3D 基於Transformer，更為先進的3D物件偵測模型 PETR 多攝影機之車道線偵測模型：Lift, Splat, Shoot 骨幹網路共享之多任務模型：物件偵測+語意分割

★本課程所有程式都將在Colab此雲端平台上開發，會提供所有實作範例資料及程式碼

了解更多

關注關注

PyTorch深度學習CNN與Transformer影像辨識與生成模型實作

2026-03-14 ~ 2026-03-28

取消複製

時間&地點

時間

13:00 ~ 17:00

日期

2026-03-14 ~ 2026-03-28

地點

線上直播會議室(使用Cisco Webex Meetings，將於課前提供會議室資訊)

時間

13:00 ~ 17:00

日期

2026-03-14 ~ 2026-03-28

地點

線上直播會議室(使用Cisco Webex Meetings，將於課前提供會議室資訊)

PyTorch深度學習CNN與Transformer影像辨識與生成模型實作

時間&地點

分享給你