Engenheiro(a) de Confiabilidade - SRE

Reclame AQUI
Sênior
Remoto 🌐
Publicado em 21 de novembro de 2025

Descrição da Vaga

**Sobre a Vaga** No Reclame AQUI, somos os guardiões da confiança nas relações de consumo, e nossa plataforma é o palco onde essa confiança é construída diariamente. Para garantir que cada opinião seja ouvida, cada problema seja exposto e cada solução seja encontrada, precisamos de uma infraestrutura que não para, que escala e que está sempre à frente. É aqui que você entra! Procuramos um(a) Engenheiro(a) de Confiabilidade (SRE) que traduza a missão de confiança do Reclame AQUI em garantia técnica, assegurando que nossa plataforma seja sempre íntegra, rápida e disponível. Seu maior desafio será gerenciar a alta escalabilidade e a complexidade de um sistema crítico em evolução acelerada, transformando nossa cultura operacional reativa em uma cultura de engenharia de confiabilidade e automação proativa. Venha ser a espinha dorsal tecnológica da confiança que move o Brasil! **Missão do Cargo** Ser o Guardião da Confiança Digital e da Excelência Operacional, utilizando a engenharia de software (SRE) para garantir que a voz do consumidor seja sempre íntegra, visível e disponível, assegurando a missão de transparência do Reclame AQUI. **Suas Responsabilidades:** * Confiabilidade e Operação: * Aumentar a confiabilidade e a performance dos serviços críticos do Reclame AQUI, garantindo o cumprimento rigoroso dos SLOs (Service Level Objectives) para manter nossa credibilidade inabalável. * Gerenciar e evoluir a infraestrutura em GCP e Kubernetes (K8s), assegurando a estabilidade e a escalabilidade contínua do ambiente. * Implementar e manter a stack de Observabilidade (O11y), utilizando ferramentas como Prometheus e Grafana, para visibilidade proativa e troubleshooting eficiente de potenciais problemas. * Conduzir análises post\-mortem de incidentes com uma cultura sem culpa, identificando causas\-raiz e implementando soluções duradouras para prevenir recorrências e fortalecer nosso aprendizado. * Automação e Engenharia: * Automatizar tarefas operacionais repetitivas (toil), focando na otimização do tempo do time e na eliminação de gargalos manuais. * Desenvolver e manter a Infraestrutura como Código (IaC) de forma robusta e modular utilizando Terraform, promovendo agilidade e consistência. * Evoluir as pipelines de CI/CD e Deploy utilizando ferramentas como Argo, garantindo entregas rápidas, seguras e incrementais. * Evangelizar e otimizar as plataforma de desenvolvimento, facilitando a experiência e a produtividade dos times de engenharia. * Otimização e Segurança: * Implementar e monitorar práticas de FinOps com foco em otimização de custos e uso eficiente de recursos em Cloud (GCP/Spotinst). * Aprimorar a segurança e os padrões de infraestrutura (como o uso de Helm para empacotamento) através de code reviews e validações constantes. * Garantir a correta utilização de Bitbucket e o gerenciamento do ciclo de vida do código de infraestrutura. **Pré\-requisitos** * Experiência sólida com GCP em geral. * Proficiência em ferramentas de automação com Terraform. * Conhecimento e experiência com a plataforma Backstage. * Experiência em O11y (Observabilidade), com domínio da stack Prometheus \+ Grafana. * Sólida vivência com pipelines de CI/CD. * Conhecimento avançado em ambiente Linux. * Habilidade de programação em Python ou Golang. * Experiência com Argo. * Familiaridade com Bitbucket ou outras ferramentas de controle de versão. * Domínio dos conceitos e aplicação de SLI/SLO em um contexto SRE. * Experiência robusta com Kubernetes (K8s). **Diferencial** * Conhecimento em otimização e diagnóstico de performance de Banco de Dados: Experiência com Tuning de Queries (SQL/NoSQL) e análise de planos de execução (explain plans), visando a redução de latência e o consumo eficiente de recursos. * Conhecimento em Networking de Nuvem: Bom entendimento de redes em ambientes de Cloud/K8s (incluindo VPC, NEG, Service Mesh, Ingress e CNI) para troubleshooting avançado de conectividade e otimização de tráfego. * Operação e Gerenciamento de MongoDB Atlas: Conhecimento em rotinas de operação e administração de clusters Atlas, incluindo monitoramento de performance, gestão de usuários/segurança e procedimentos de backup e restore.

Vaga originalmente publicada em: indeed

💼 Encontre as melhores oportunidades para desenvolvedores no Job For Dev