Site Reliability Engineer (SRE) в команду YTsaurus
Требования
Местоположение и тип занятости
Компания
Описание вакансии
О компании и команде
YTsaurus — опенсорс-платформа для хранения и обработки данных, которую в VK активно развивают и используют как основу единого дата-лейка. Система обрабатывает миллионы событий в секунду на динамических таблицах, работает с сотнями петабайт данных и обслуживает тысячи пользователей.
У нас большие кластеры, сложная инфраструктура и высокие требования к надёжности. И мы ищем SRE-инженера, который поможет поддерживать и развивать всё это.
Что предстоит делать:
- Автоматизировать эксплуатацию YTsaurus;
- интегрировать платформу с внутренними системами VK;
- следить за стабильностью и производительностью;
- разбираться с проблемами на уровне кода (в основном C++);
- решать задачи, которые не гуглятся;
- разбираться с инцидентами в рамках дежурств (дежурства нерабочее время оплачиваются дополнительно);
- масштабировать кластер YTsaurus до 500ПБ;
- заниматься оптимизацией использования железа (CPU, диски).
Ожидания от кандидата
Ищем в опыте коллеги:
- Опыт работы с распределёнными системами;
- знания в области сетей (TCP/IP, DNS, балансировка, ACL) и ОС Linux;
- владение C++ на уровне чтения и отладки сложного кода;
- способность работать самостоятельно: формулировать цели, предлагать решения;
- опыт работы с высоконагруженными системами или большими объёмами данных — будет плюсом.
Что у нас интересно?
- Участие в развитии ключевой технологической платформы VK;
- влияние на архитектуру и инфраструктуру дата-лейка масштабов сотен петабайт;
- сильную команду инженеров, готовых делиться знаниями;
- удалённый или гибридный формат работы;
- гибкий график и адекватный подход к балансу работы и жизни.
Дополнительные инструкции
Если позиция вас заинтересовала, пришлите, пожалуйста, резюме в telegram @dsvorobyova
Воробьёва Дарья
IT Recruiter - VK
darya.vorobeva@vk.team
Telegram - @dsvorobyova