python==3.8 onnx==1.11 onnxruntime-gpu==1.16.0 仅CPU情况下:每秒1帧,速度为130-140ms。每秒一帧CPU使用率可以降到130% CUDA加速(仅推理加速,前后处理未加速):每秒检测1帧,检测速度为30ms,CPU利用率为70%