Site Reliability Engineer (SRE) Pleno
Descrição da Vaga
Para compôr o time de Engenharia, buscamos um profissional com perfil analítico e resolutivo para integrar nossa equipe de **Managed Services**. Você atuará na garantia da confiabilidade e estabilidade de sistemas críticos de nossos clientes, combinando a rotina de sustentação técnica com a engenharia de observabilidade. O cenário ideal é alguém que não apenas resolva o incidente, mas que tenha a capacidade técnica de aprofundar a investigação em ambientes complexos e criar mecanismos de monitoração para evitar recorrências e garantir uma atuação preventiva. **Responsabilidades e atribuições** **Você será responsável por:** * Atuar no atendimento de chamados técnicos e resolução de incidentes em ambientes de missão crítica. * Administrar, sustentar e realizar *troubleshooting* em clusters Red Hat OpenShift. * Garantir a saúde e a operação de clusters de mensageria Apache Kafka. * Arquitetar, implementar e manter soluções de monitoração e observabilidade (dashboards, alertas e logs) para garantir a visibilidade da saúde dos sistemas. * Realizar diagnósticos complexos em aplicações, analisando logs, métricas e comportamento da infraestrutura para isolar a causa raiz. * Arquitetar, implementar e manter, proativamente, planos de melhoria e otimização de ambientes internos e de clientes. * Participar de escalas de plantão fora do horário comercial e finais de semana para atendimento a incidentes prioritários. **Requisitos e qualificações** **O que você precisa saber:** * Domínio avançado em orquestração de containers, especificamente **OpenShift**. * Sólidos conhecimentos na administração e sustentação de **Kafka** (Brokers, Zookeeper, Consumers/Producers). * Experiência prática na configuração de ferramentas de **Monitoramento/Observabilidade** (Prometheus, Grafana, ELK Stack ou Zabbix). * Conhecimento em Sistemas Operacionais **Linux** e fundamentos de **Redes** para depuração. * Familiaridade com processos de gerenciamento de incidentes e serviços de TI (ITIL ou práticas de SRE). **O que você precisa ter:** * Comunicação Clara: Habilidade para traduzir problemas técnicos complexos em status claros para o cliente e para o time. * Perfil Investigativo: Curiosidade e persistência para entender o "porquê" de um erro em sistemas desconhecidos. * Resiliência: Capacidade de manter a calma e o foco técnico durante crises ou paradas de serviço. * Proatividade: Iniciativa e organização para elaborar planos de ganho de eficiência para a equipe e para os ambientes sustentados. * Flexibilidade de Horário: Disponibilidade real para atuar em regime de sobreaviso/plantão. **Você se destaca se tiver:** * Certificações oficiais Red Hat (EX180, EX280\). * Vivência na definição de indicadores de confiabilidade (SLAs, SLIs e SLOs). * Habilidade com alguma linguagem de script (Python, Bash ou Go) para automação. * Experiência com plataformas de cloud pública (AWS, Azure, GCP, OCI). * Certificação Linux Foundation de Kubernetes (CKA, CKS). * Certificação LPIC. **Informações adicionais** Dentro da Icaro nós incentivamos muito nossos profissionais a cultivar nossa Cultura, e apesar de cada um ter seu próprio jeito de ser, todos temos algo em comum: somos Icaronautas **O que faz de nós um Great Place to Work?** **No dia\-a\-dia:** * Work anywhere: pode trabalhar remoto ou de um dos nossos escritórios * Birthday Off * Horário flexível * Vale alimentação * Vale refeição * Vale transporte * No dress code **Saúde e bem\-estar:** * TotalPass * Plano de saúde * Plano odontológico * Plano de saúde PET * Parcerias com profissionais e estabelecimentos **Desenvolvimento contínuo:** * Auxílio pós\-graduação * Bolsa de idiomas * Programa de treinamento e capacitação * Programa de tutoria e mentoria **Apoio e cuidado:** * Auxílio Home Office * Auxílio creche * Seguro de Vida * Indicação premiada * Participação nos lucros * Breaktime: acompanhamento do RH **Quem somos?** Desde 1997 a Icaro Tech usa o poder do conhecimento e da tecnologia da informação para oferecer as melhores soluções em **Operações Inteligentes** e tem como missão principal simplificar a vida das pessoas!!! Razões para trabalhar conosco: * Cultivamos um ambiente positivo e colaborativo * Nossa liderança está sempre de portas abertas * Investimos em nossos talentos * Somos apaixonados por tecnologia * Somos inconformados com resultados não atingidos *\#SomosUmTime*
Vaga originalmente publicada em: indeed
💼 Encontre as melhores oportunidades para desenvolvedores no Job For Dev