H100 Optimized TensorRT-LLM Models - a optimum-nvidia Collection

optimum-nvidia 's Collections

updated Mar 13

Nvidia H100 Tensor Cores GPU optimized inference engines. These engines can potentially leverage the `float8` data type to speed up computations

This collection has no items.