AI-Engineer-Note Tất cả những thứ sưu tầm được liên quan đến AI Engineer và Deploy Services Linux & CUDA & APT-Packages FAQ Deeplearning Frameworks 1. TensorRT 1.1 Convert ONNX model to TensorRT 1.2 Wrapped TensorRT-CPP Models 1.2.1 Arcface 1.2.2 SCRFD 1.2.3 YOLOv7 2. Pytorch 2.1 Build Pytorch from source (Optimize speed for AMD CPU & NVIDIA GPU) Deploy 1. NVIDIA 1.1 Multi-instance GPU (MIG) 1.2 FFMPEG with Nvidia hardware-acceleration 2. Deepstream 2.1 Yolov4 2.2 Traffic Analyst 2.3 SCRFD Face Detection (custom parser & NMS plugin with landmark) 3. Triton Inference Server 3.1 Cài đặt triton-server và triton-client 3.1.1 Các chế độ quản lý model (load/unload/reload) 3.2 Sơ lược về các backend trong Triton 3.3 Cấu hình cơ bản khi deploy mô hình 3.4 Deploy mô hình 3.4.1 ONNX-runtime 3.4.2 TensorRT 3.4.3 Pytorch & TorchScript 3.4.4 Kaldi (Advanced) 3.5 Model Batching 3.6 Ensemble Model và pre/post processing 3.7 Sử dụng Performance Analyzer Tool 3.8 Optimizations 3.8.1 Tối ưu Pytorch backend 4. TAO Toolkit (Transfer-Learning-Toolkit)