Back to jobs

AI Architect (Runtime & Inference) - LLM Platforms | Specialist (Remote) Trabalho Remoto Efetivo
BrasilPosted 3 weeks ago
remote
Job Description
Descrição da vaga
.
Responsabilidades e atribuições
- Operar, otimizar e evoluir o runtime de agentes e a infraestrutura de inferência de LLMs em produção;
- Definir e implementar arquitetura de endpoints de modelo com foco em SLOs de latência e disponibilidade;
- Projetar e manter pipelines completos de observabilidade: métricas, logs estruturados, traces distribuídos e alertas inteligentes;
- Conduzir otimizações avançadas de performance: batching dinâmico, caching semântico, quantização e gestão de contexto;
- Liderar resposta a incidentes e análises de causa raiz em falhas do ambiente de inferência;
- Definir padrões de resiliência e estratégias de failover para workloads de LLM em produção;
- Produzir runbooks, playbooks e documentação operacional de referência para o ambiente;
Requisitos e qualificações
Habilidades necessárias:
- Expertise em operação de modelos de linguagem em produção com foco em performance e disponibilidade;
- Domínio de frameworks de LLM serving em escala: vLLM, TGI (Text Generation Inference), Triton Inference Server ou equivalentes;
- Experiência avançada com Kubernetes e gerenciamento de workloads de inferência com aceleradores;
- Expertise em observabilidade em ambientes complexos: Prometheus, Grafana, OpenTelemetry e correlação de sinais;
- Profundo conhecimento de AWS e seus serviços de ML (SageMaker Endpoints, Bedrock, EKS);
Habilidades desejáveis:
- Experiência com otimização avançada de modelos: quantização (GPTQ, AWQ), distilação e compilação para inferência;
- Conhecimento prático de GPUs e aceleradores (NVIDIA A100/H100) em contextos de produção;
- Experiência com caching semântico e estratégias avançadas de gestão de contexto para LLMs;
- Histórico de atuação em SRE ou engenharia de plataforma em ambientes de missão crítica;
- Experiência com arquiteturas multi-região e estratégias de disaster recovery para workloads de IA;