Site Reliability Engineering - Kurs 65.000 Rubel. von Slurm, Schulung, Datum 1. Januar 2024.
Verschiedenes / / November 29, 2023
AN DIE MENSCHEN
Ein SRE-Ingenieur kann entweder ein Betriebsingenieur oder ein Entwickler sein. Während des Intensivkurses werden Sie viel üben und die erworbenen Fähigkeiten und Kenntnisse können in jedem Bereich angepasst und umgesetzt werden.
GESCHÄFT
SRE löst die gleichen Probleme wie DevOps: Es beschleunigt die Veröffentlichung neuer Funktionen und verbessert die Prozesse im Team. Die Hauptaufgabe von SRE besteht jedoch darin, die Stabilität und Zuverlässigkeit der Dienste sicherzustellen und Situationen auszuschließen, in denen Benutzer sich über Ausfälle beschweren und Ingenieure grüne Zeitpläne haben.
Wir bauen:
Unsere Schulungsseite besteht aus mehreren Microservices. Es sammelt Daten zu Vorstellungen, Preisen und verfügbaren Plätzen aller Kinos, zeigt Filmankündigungen an, ermöglicht Ihnen die Auswahl eines Kinos, einer Vorstellung, eines Saals und eines Ortes sowie die Buchung und Bezahlung von Eintrittskarten.
Wir werden SLO-, SLI- und SLA-Indikatoren für diesen Standort formulieren, eine Architektur und Infrastruktur entwickeln, die sie unterstützt, und Überwachung und Alarmierung einrichten.
Entwicklerfehler, Infrastrukturausfälle, ein Zustrom von Besuchern und DoS-Angriffe führen zu einer Verschlechterung der SLOs.
Wir analysieren Stabilität, Fehlerbudget, Testpraxis, Unterbrechungsmanagement und Betriebsbelastung.
Dort war ein Unfall. Der Zahlungsabwicklungsdienst ist ausgefallen. Wie kann man vorgehen, um die Funktionsfähigkeit in kürzester Zeit wiederherzustellen?
Wir organisieren die Arbeit des Notfallteams: Kollegen einbeziehen, Stakeholder informieren, Prioritäten setzen. Wir trainieren, um unter extrem begrenzten Zeitbedingungen unter Druck zu arbeiten.
Schauen wir uns die Herangehensweise an die Website aus SRE-Sicht an. Wir analysieren Vorfälle (Ereignisursachen, Beseitigungsfortschritt). Wir treffen Entscheidungen, um sie weiter zu verhindern: Wir verbessern die Überwachung, ändern die Architektur, den Ansatz für Entwicklung und Betrieb sowie Vorschriften. Wir automatisieren Prozesse.
— Wir haben Dutzende gebaute Infrastrukturen und Hunderte geschriebene CI/CD-Pipelines,
— Zertifizierter Kubernetes-Administrator,
— Autor mehrerer Kurse zu Kubernetes und DevOps,
— Regelmäßiger Redner auf russischen und internationalen IT-Konferenzen.
TAG 1: AMA-Auftaktsitzung
Wir besprechen die Ziele und Zielsetzungen des Kurses, erklären Ihnen auch, was SRE ist und teilen es in Teams auf.
Eröffnung von 2 theoretischen Themen:
Thema 1: Überwachung
- Warum ist eine Überwachung erforderlich?
- Perzentile
- Alarmierung
- Beobachtbarkeit
Thema 2: SRE-Theorie
- SLO, SLI, SLA
- Haltbarkeit
- Fehlerbudget
TAG 2: Analyse von Praktiken und Fällen
Üben: Erstellen eines einfachen Dashboards und Einrichten der erforderlichen Warnungen
Üben: Hinzufügen von SLO/SLI+-Warnungen zum Dashboard
Üben: Erste Systemlast
Lösung für Fall 1: Downstream-Abhängigkeit.
In einem großen System gibt es viele voneinander abhängige Dienste, die nicht immer gleich gut funktionieren. Besonders ärgerlich ist es, wenn Ihr Dienst in Ordnung ist, der Nachbardienst, auf den Sie angewiesen sind, jedoch regelmäßig ausfällt.
Das Bildungsprojekt befindet sich in genau diesen Bedingungen und Sie stellen sicher, dass es weiterhin Qualität auf höchstem Niveau produziert.
TAG 3: AMA-Sitzung, Fragen beantwortet
Der Zugang zum 2. Theoriemodul öffnet sich:
Probleme mit Umwelt und Architektur lösen
Das zweite Modul konzentriert sich auf die Lösung zweier Fälle: Upstream-Abhängigkeit und Architekturprobleme. Referenten sprechen über Störfallmanagement, Regeln für die Feuerwehr und die Arbeit mit Obduktionen und stellen Vorlagen zur Verfügung, die Sie in Ihrem Team nutzen können.
Thema 3: Incident Management
- Resilienztechnik
- Wie eine Feuerwehr entsteht
- Wie effektiv ist Ihr Team bei dem Vorfall?
- 7 Regeln für einen Einsatzleiter
- 5 Regeln für einen Feuerwehrmann
- HiPPO – Meinung der bestbezahlten Person. Kommunikationsleiter
TThema 4: Varrum-Tools und Alarmmanagement.
Best Practice anderer Unternehmen bei der Organisation des Incident Managements.
TAG 4: Analyse von Praktiken und Fällen
Lösung für Fall 2: Upstream-Abhängigkeit.
Es ist eine Sache, wenn Sie auf einen Dienst mit einem niedrigen SLO angewiesen sind. Eine andere Sache ist es, wenn Ihr Service für andere Teile des Systems derselbe ist. Dies geschieht, wenn die Bewertungskriterien nicht konsistent sind: Sie antworten beispielsweise innerhalb einer Sekunde auf eine Anfrage und betrachten sie als Erfolg, der abhängige Dienst wartet jedoch nur 500 Moskauer Zeit und verlässt den Dienst mit einem Fehler.
In diesem Fall werden wir die Bedeutung der Harmonisierung von Kennzahlen besprechen und lernen, Qualität aus der Sicht des Kunden zu betrachten.
Lösung zu Fall 3: Probleme mit der Datenbank.
Auch die Datenbank kann eine Quelle von Problemen sein. Wenn Sie beispielsweise das Replikations-Relay nicht überwachen, ist das Replikat veraltet und die Anwendung gibt alte Daten zurück. Darüber hinaus ist das Debuggen in solchen Fällen besonders schwierig: Jetzt sind die Daten inkonsistent, aber nach ein paar Sekunden sind sie nicht mehr konsistent und es ist nicht klar, was die Ursache des Problems ist.
Durch den Fall werden Sie den ganzen Schmerz des Debuggens spüren und lernen, wie Sie solche Probleme verhindern können.
Üben: Wir verfassen eine Obduktion zum vorangegangenen Fall und besprechen diese mit den Referenten.
TAG 5: AMA-Sitzung, Fragen beantwortet
AMA-Sitzung und Antworten auf Fragen zu früheren Themen.
Der Zugang zum 3. Theoriemodul öffnet sich:
Verkehrsabschirmung und kanarische Freisetzungen
Im dritten Modul analysieren wir einen Fall, der sich mit einem Problem mit der Umwelt befasst (es wird eine detaillierte Gesundheitsanalyse geben). Darüber hinaus analysieren wir Schritt für Schritt, wie sich SRE in Unternehmen umsetzen lässt, und lernen die Erfahrungen der Unternehmen kennen, in denen die Referenten tätig sind intensiv
Thema 5: Gesundheitsprüfung
- Gesundheitscheck in Kubernetes
- Gibt es unseren Dienst noch?
- Exec-Sonden
- InitialDelaySeconds
- Sekundärer Gesundheitshafen
- Sidecar-Gesundheitsserver
- Kopflose Sonde
- Hardware-Sonde
Thema 6: Bereitstellungsmethoden
Thema 7: SRE-Projekt-Onboarding
Große Unternehmen bilden häufig ein eigenes SRE-Team, das zur Unterstützung die Dienste anderer Abteilungen in Anspruch nimmt. Doch nicht jeder Dienst ist bereit, zur Unterstützung angenommen zu werden. Wir verraten Ihnen, welche Anforderungen es erfüllen muss. Die Referenten berichten außerdem von ihren Erfahrungen, wie sie SRE umgesetzt haben und welche Fehler sie gemacht haben.
TAG 6: Analyse von Praktiken und Fällen
Lösung für Fall 4: Es liegt ein Umweltproblem vor, es ist unmöglich, Tickets zu kaufen.
Die Aufgabe von Healthcheck besteht darin, einen fehlerhaften Dienst zu erkennen und den Datenverkehr zu diesem zu blockieren. Und wenn Sie der Meinung sind, dass es dafür ausreicht, mit Root eine Anfrage an den Dienst zu stellen und eine Antwort zu erhalten, dann sind Sie genau richtig Sie irren sich: Auch wenn der Dienst antwortet, garantiert dies nicht seinen Betrieb – es können Probleme auftreten Umfeld.
Anhand dieses Falls erfahren Sie, wie Sie den richtigen Healthcheck konfigurieren und verhindern, dass Datenverkehr dorthin gelangt, wo er nicht verarbeitet werden kann.
Zusammenfassend