python==3.8
onnx==1.11

CPU时常：130-140ms。GPU待解决
CPU使用情况：总的为600%
onnxruntime-gpu版本待定均有报错：
1、1.11及1.10版本可以使用CPU但无法使用cuda，报错信息为：
2024-09-04 15:33:24.369159907 [E:onnxruntime:Default, provider_bridge_ort.cc:1022 Get] Failed to load library libonnxruntime_providers_cuda.so with error: libcublas.so.10: cannot open shared object file: No such file or directory
2024-09-04 15:33:24.369221636 [W:onnxruntime:Default, onnxruntime_pybind_state.cc:552 CreateExecutionProviderInstance] Failed to create CUDAExecutionProvider. Please reference https://onnxruntime.ai/docs/reference/execution-providers/CUDA-ExecutionProvider.html#requirements to ensure all dependencies are met.

2、1.12.1及1.17（测试了两个版本）
不再有libcublas.so.10: cannot open shared object file: No such file or directory的错误，但是有新的报错：
Model correct
Using CUDA for inference.
2024-09-04 16:15:58.913593544 [E:onnxruntime:, sequential_executor.cc:368 Execute] Non-zero status code returned while running Conv node. Name:'/model.1/conv/Conv' Status Message: :0: cudaFuncSetAttribute(kernel_entry, cudaFuncAttributeMaxDynamicSharedMemorySize, integer_cast<int32_t>(launch_configs[0].smemSizeInBytes)): invalid device function
Traceback (most recent call last):
  File "testonnxvideo.py", line 263, in <module>
    main()
  File "testonnxvideo.py", line 242, in main
    output, org_img = model.inference(frame)
  File "testonnxvideo.py", line 86, in inference
    pred = self.onnx_session.run(None, input_feed)[0]
  File "/usr/local/lib/python3.8/dist-packages/onnxruntime/capi/onnxruntime_inference_collection.py", line 200, in run
    return self._sess.run(output_names, input_feed, run_options)
onnxruntime.capi.onnxruntime_pybind11_state.RuntimeException: [ONNXRuntimeError] : 6 : RUNTIME_EXCEPTION : Non-zero status code returned while running Conv node. Name:'/model.1/conv/Conv' Status Message: :0: cudaFuncSetAttribute(kernel_entry, cudaFuncAttributeMaxDynamicSharedMemorySize, integer_cast<int32_t>(launch_configs[0].smemSizeInBytes)): invalid device function