Além da corrida armamentista de GPU – O papel potencial do OXC na construção da infraestrutura de IA da próxima geração

(wp_tech_share)


siga-nos no feedly

Tanto em hiperescaladores quanto em nuvens soberanas, a corrida está mudando da supremacia apenas do modelo para a supremacia da infraestrutura. A verdadeira diferenciação agora está na eficiência com que as GPUs podem ser interconectadas e utilizadas. À medida que os clusters de IA vão além de tudo para o qual a rede de data center tradicional foi construída, a questão não é mais quão rápido você pode treinar? mas sua rede consegue acompanhar? É aqui que entram na conversa arquiteturas emergentes como Optical Circuit Switches (OCS) e Optical Cross-Connects (OXC), uma tecnologia usada em redes de longa distância.

A rede é o computador para clusters de IA

A nova era do raciocínio da IA ​​está introduzindo três novas leis de escalonamento – abrangendo pré-treinamento, pós-treinamento e escalonamento em tempo de teste – que juntas estão gerando um aumento sem precedentes nos requisitos de computação. No GTC 2025, Jensen Huang afirmou que a demanda por computação é agora 100 vezes maior do que o previsto há apenas um ano. Como resultado, o tamanho dos clusters de IA está explodindo, mesmo enquanto a indústria busca agressivamente avanços em termos de eficiência – o que muitos chamam agora de “momento DeepSeek” de otimização da implantação de IA.

Como ilustra o gráfico, os clusters de IA estão aumentando rapidamente de centenas de milhares de GPUs para milhões de GPUs. Nos próximos cinco anos, a expectativa é que haja cerca de 124 gigawatts de capacidade a serem colocados online, ou o equivalente a mais de 70 milhões de GPUs a serem implantadas. Nesta realidade, a rede desempenhará um papel fundamental na conexão dessas GPUs da forma mais otimizada e eficiente. A rede é o computador para clusters de IA.

Desafios na operação de clusters de IA em grande escala

Conforme mostrado no gráfico acima, o número de interconexões aumenta exponencialmente com o número de GPUs. Esse rápido aumento gera custos, consumo de energia e latência significativos. Não é apenas o número de interconexões que está explodindo – os requisitos de velocidade estão aumentando de forma igualmente agressiva. Os clusters de IA são fundamentalmente vinculados à rede, o que significa que a rede deve operar com quase 100% de eficiência para utilizar totalmente os recursos extremamente caros da GPU.

Outro fator importante é a cadência de atualização. As redes back-end de IA são atualizadas aproximadamente a cada dois anos ou menos, em comparação com cerca de cinco anos em ambientes empresariais front-end tradicionais. Como resultado, as transições de velocidade nos data centers de IA estão acontecendo quase duas vezes mais rápido que as infraestruturas não aceleradas.

Olhando para as remessas de portas de switch em clusters de IA, esperamos que a maioria das portas em 2025 seja de 800 Gbps. Até 2027, a maioria terá feito a transição para 1,6 Tbps e, até 2030, espera-se que a maioria das portas opere a 3,2 Tbps. Esta progressão implica que a camada elétrica da rede do data center precisará ser substituída a cada nova geração de largura de banda – um ciclo de atualização muito mais agressivo do que o que a indústria tem visto historicamente em infraestruturas front-end não aceleradas.

O papel potencial do OCS em clusters de IA

Switches de circuito óptico (OCS) ou conexões cruzadas ópticas (OXC) são dispositivos de rede que estabelecem caminhos ópticos diretos baseados em luz entre endpoints, ignorando o tradicional pipeline de roteamento comutado por pacotes para fornecer conectividade de latência quase zero com enorme eficiência de largura de banda. O Google foi o primeiro grande hiperescalador a implantar o OCS em escala há quase uma década, usando-o para religar dinamicamente sua topologia de data center em resposta às mudanças nos padrões de carga de trabalho e para reduzir a dependência de malhas Ethernet elétricas que consomem muita energia.

Uma grande vantagem do OCS é que ele é fundamentalmente agnóstico em termos de velocidade – como opera inteiramente no domínio óptico, não precisa ser atualizado cada vez que a indústria faz a transição de 400 Gbps para 800 Gbps, para 1,6 Tbps ou mais. Isso contrasta fortemente com as camadas de comutação elétrica tradicionais, que exigem atualizações constantes à medida que a velocidade do link acelera. O OCS também elimina a necessidade de conversão óptico-elétrico-óptico (OEO), permitindo o encaminhamento óptico puro, que não apenas reduz a latência, mas também reduz drasticamente o consumo de energia, evitando o custo de energia da conversão repetida de fótons em elétrons e vice-versa.

O benefício combinado é uma malha de interconexão escalonável, preparada para o futuro e ultraeficiente, especialmente adequada para redes back-end de IA e computação de alto desempenho (HPC), onde o tráfego leste-oeste é imprevisível e a demanda por largura de banda cresce mais rápido do que a Lei de Moore. À medida que a intensidade da carga de trabalho de IA aumenta, o OCS está sendo explorado como uma forma de otimizar a rede.

OCS é uma tecnologia comprovada

Usar um OCS em uma rede não é novidade. No entanto, foi chamado por nomes diferentes nas últimas três décadas: OOO Switch, switch totalmente óptico, switch óptico e conexão cruzada óptica (OXC). Atualmente, o termo mais popular para esses sistemas utilizados em data centers é OCS.

Ele tem sido usado na rede de longa distância (WAN) há muitos anos para resolver um conjunto de problemas semelhante. E por muitas das mesmas razões, os operadores de primeiro nível em todo o mundo abordaram esta questão através da utilização estratégica de OCS. Conseqüentemente, os OCSs têm sido usados ​​em redes de operadoras por operadoras com os mais rigorosos requisitos de desempenho e confiabilidade há mais de uma década. Além disso, as tecnologias ópticas básicas, tanto MEMS quanto LCOS, foram amplamente implantadas em redes de operadoras e operaram sem falhas por ainda mais tempo. Dito de outra forma, o OCS é baseado em tecnologia comprovada em campo.

Seja usado em um data center ou para escalabilidade entre data centers, um OCS oferece vários benefícios que se traduzem em custos mais baixos ao longo do tempo.

Para atender às necessidades específicas dos data centers de IA, as empresas lançaram novos produtos OCS. A seguir está uma lista dos produtos disponíveis no mercado:

Pensamento final

A infraestrutura de IA está divergindo do design convencional de data centers em um ritmo sem precedentes, e as redes que conectam as GPUs devem evoluir ainda mais rápido do que as próprias GPUs. OCS não é uma arquitetura de pesquisa exótica; é uma tecnologia comprovada que está pronta para ser explorada e considerada para uso em redes de IA como uma forma de diferenciá-las e evoluí-las para atender aos requisitos rigorosos de grandes clusters de IA.

Deixe um comentário