Back to jobs
AI/R

AI Architect (Runtime & Inference) - LLM Platforms | Specialist (Remote) Trabalho Remoto Efetivo

BrasilPosted 3 weeks ago
remote

Job Description

Descrição da vaga

.



Responsabilidades e atribuições

  • Operar, otimizar e evoluir o runtime de agentes e a infraestrutura de inferência de LLMs em produção;
  • Definir e implementar arquitetura de endpoints de modelo com foco em SLOs de latência e disponibilidade;
  • Projetar e manter pipelines completos de observabilidade: métricas, logs estruturados, traces distribuídos e alertas inteligentes;
  • Conduzir otimizações avançadas de performance: batching dinâmico, caching semântico, quantização e gestão de contexto;
  • Liderar resposta a incidentes e análises de causa raiz em falhas do ambiente de inferência;
  • Definir padrões de resiliência e estratégias de failover para workloads de LLM em produção;
  • Produzir runbooks, playbooks e documentação operacional de referência para o ambiente;


Requisitos e qualificações

Habilidades necessárias:


  • Expertise em operação de modelos de linguagem em produção com foco em performance e disponibilidade;
  • Domínio de frameworks de LLM serving em escala: vLLM, TGI (Text Generation Inference), Triton Inference Server ou equivalentes;
  • Experiência avançada com Kubernetes e gerenciamento de workloads de inferência com aceleradores;
  • Expertise em observabilidade em ambientes complexos: Prometheus, Grafana, OpenTelemetry e correlação de sinais;
  • Profundo conhecimento de AWS e seus serviços de ML (SageMaker Endpoints, Bedrock, EKS);

 

Habilidades desejáveis:


  • Experiência com otimização avançada de modelos: quantização (GPTQ, AWQ), distilação e compilação para inferência;
  • Conhecimento prático de GPUs e aceleradores (NVIDIA A100/H100) em contextos de produção;
  • Experiência com caching semântico e estratégias avançadas de gestão de contexto para LLMs;
  • Histórico de atuação em SRE ou engenharia de plataforma em ambientes de missão crítica;
  • Experiência com arquiteturas multi-região e estratégias de disaster recovery para workloads de IA;

 




See Your Match Score

Sign up and Renata will show you how this job matches your skills and experience.

Get Started Free
AI Architect (Runtime & Inference) - LLM Platforms | Specialist (Remote) Trabalho Remoto Efetivo at AI/R | Renata