Скачать курсы и тренинги, вебинары и мастер классы удобнее и быстрее, чем на складчине или торренте. Круглосуточная поддержка 24/7
На курсе вы будете:
Строить
Сформулируете показатели SLO, SLI, SLA для сайта, состоящего из нескольких
микросервисов, разработаете архитектуру и инфраструктуру, которая их обеспечит,
соберете, протестируете и задеплоите сайт, настроите мониторинг и алертинг.Ломать
Рассмотрите внутренние и внешние факторы ухудшения SLO: ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки. Разберетесь в устойчивости, error budget, практике тестирования, управлении прерываниями и операционной
нагрузкой.Чинить
Организуете работу группы по ликвидации аварии в минимальные сроки: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Имитация реальных условий: восстановление работоспособности сервиса в условиях предельно ограниченного времени.Изучать
Разберете подход к сайту с точки зрения SRE. Проанализируете инциденты (причины возникновения, ход устранения). Примете решение по их дальнейшему предотвращению: улучшить мониторинг, изменить архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируете процессы.Требования к участникам:
– Свободное владение Linux;
– Любой язык программирования: уровень Junior;
– GitLab: навыки автоматизации;
– Prometheus: навыки мониторинга;
– Kubernetes: навыки работы в кластере.Тема №1: Основные принципы и методы SREЧто нужно чтобы стать SRE?
DevOps vs SRE
Почему разработчики ценят SRE и очень грустят, когда в проекте их нет
SLI, SLO и SLA
Error budget и его роль в SRE
Тема №2: Дизайн распределенных системАрхитектура и функционал приложения
Non-Abstract Large System Design
Operability / Design for failure
gRPC или REST
Версионирование и обратная совместимость
Тема №3: Как принимают проект SREЛучшие практики от SRE
Чек-лист приема проекта
Логирование, метрики, трейсинг
Забираем CI/CD в свои руки
Тема №4: Проектирование и запуск распределенной системыОбратное проектирование — как работает система?
Согласовываем SLI и SLO
Практика capacity planning
Запуск трафика на приложение, наши пользователи начинают им «пользоваться»
Запускаем Prometheus, Grafana, Elastic
Тема №5: Monitoring, Observability and AlertingMonitoring vs. Observability
Настраиваем мониторинг и алертинг с Prometheus
Практический мониторинг SLI и SLO
Symptoms vs. Causes
Black-Box vs. White-Box Monitoring
Распределенный мониторинг доступности приложений и серверов
4 золотых сигнала (обнаружение аномалий)
Тема №6: Практика тестирования надежности системРабота под давлением
Failure-injection
Chaos Monkey
Тема №7: Практика incident responseАлгоритм управления стрессом
Взаимодействие между участниками инцидента
Постмортем
Knowledge sharing
Формирование культуры
Контроль неисправностей
Проведение blameless разбора полетов
Тема №8: Практика управления нагрузкойБалансировка нагрузки
Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker
DDoS (создаем нагрузку) + Cascading Failures
Тема №9: Реагирование на инцидентыРазбор полетов
Практика On-Call
Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)
Протоколы управления инцидентами
Тема №10: Диагностика и решение проблемЖурналирование
Отладка
Практика анализа и отладки на нашем приложении
Тема №11: Тестирование надежности системНагрузочное тестирование
Тестирование конфигураций
Тестирование производительности
Canary release
Тема №12: Самостоятельная работа и ревьюРеальные кейсы
Проверка спикерами
Слив качественных курсов на courses24.net | Скачать любой тренинг курс практически бесплатно.
Отзывы
Отзывов пока нет.