负载均衡 - 用户指南

负载均衡

更新时间：2023-12-07 08:31:01

Inference Engine 的负载均衡由云原生技术 Envoy 实现，其每种角色的每个节点均运行着有着相同配置的 Envoy，因此用户的推理请求可发送到到任意节点，Envoy 将会把该节点收到的 HTTP/GRPC 推理请求负载均衡的转发到模型服务的各节点。Envoy 的配置可通过在浏览器中输入 <Node IP>:8001 访问：

访问 <Node IP>:8001 可查看 Envoy 的所有配置情况
访问 <Node IP>:8001/clusters 可以看到 envoy 后面具体由哪些模型服务节点提供推理服务，下图是一个由 3 个模型服务节点组成的集群