Es ist 3 Uhr nachts. Die meisten von uns, die diesen Artikel lesen, dürfen um diese Zeit friedvoll und verdient schlafen, ungestört von den Abläufen hinter den zahlreichen Services, die wir tagtäglich gerne und ausgiebig nutzen; vom Smartphone bis zum Gaming PC, vom Auto – mehr denn je ein fahrendes „Device“, ein „Connected Car“ – bis zur Infrastruktur im Office. Aber was, wenn einer dieser Dienste eine Störung hat? Wenn etwas ausfällt? Wer kümmert sich darum? Wer muss nachts um drei Uhr aufstehen, wenn ein dringendes „High Priority Incident“ Ticket aufgeht, einen Alarm auslöst und sofort gelöst werden will?
So ist dies also die Geschichte von, nennen wir ihn für heute: Andi. Andi macht das, denn Andi ist Teil des 2nd Level Support Teams, das wiederum das Operationsteam unterstützt. Wir sehen uns im Folgenden einfach mal an, was Andi so treibt, und danach? Danach schlafen wir dann alle ein wenig ruhiger, weil wir wissen, wer sich wie und warum um was kümmert – viel Spaß!
- Operations Teams: Die erste Verteidigungslinie stabiler Projekte
- 2nd Level Support – Zweites Level, erste Klasse
- 2nd Level Support – So sieht ein typisches High Priority Incident Ticket aus
- Operations und 2nd Level – Der Reality Check
- Soziale und organisatorische Fähigkeiten:
- Bildung und Zertifikate:
- Operations und 2nd Level Support bei Cognizant Mobility
- 2nd Level Support in Operationsteams: Was lernen wir?
Marc
Marketing Professional
19.07.24
Ca. 26 min
Operations Teams: Die erste Verteidigungslinie stabiler Projekte
Operations-Teams, meist nur mit „Ops“ abgekürzt, bilden eine essenziell Säule jedes IT-Unternehmens. Aber wie genau definiert sich so ein Ops-Team?
Ein Ops-Team ist eine Gruppe von IT-Fachkräften, die für den täglichen Betrieb, die Wartung und die Überwachung von IT-Systemen und -Infrastrukturen verantwortlich sind. Ihre Hauptaufgabe besteht darin, sicherzustellen, dass alle IT-Dienste und -Anwendungen reibungslos funktionieren, um den kontinuierlichen Geschäftsbetrieb zu gewährleisten. Hier sind einige der wesentlichen Funktionen und Verantwortlichkeiten eines Operationsteams:
- Überwachung und Verwaltung von Systemen und Netzwerken: Das Ops-Team überwacht kontinuierlich die IT-Infrastruktur, einschließlich Server, Netzwerke, Datenbanken und Anwendungen, um sicherzustellen, dass sie ordnungsgemäß funktionieren. Sie verwenden dafür spezielle Monitoring-Tools, die ihnen helfen, Probleme frühzeitig zu erkennen und zu beheben.
- Incident-Management: Bei Auftreten von Problemen oder Störungen (Incidents) ist das Ops-Team für die schnelle Identifizierung, Analyse und Behebung der Ursachen verantwortlich. Dies umfasst sowohl die Lösung kurzfristiger Probleme als auch die Implementierung langfristiger Maßnahmen zur Vermeidung zukünftiger Vorfälle.
- Change Management: Das Ops-Team verwaltet Änderungen an der IT-Infrastruktur, um sicherzustellen, dass diese ohne Unterbrechung oder Beeinträchtigung des Betriebs implementiert werden. Dies umfasst die Planung, Genehmigung und Durchführung von Änderungen sowie die anschließende Überprüfung ihrer Wirksamkeit.
- Wartung und Updates: Regelmäßige Wartungsarbeiten und Updates sind notwendig, um die IT-Systeme sicher und leistungsfähig zu halten. Das Ops-Team führt diese Aufgaben durch, oft während geplanter Wartungsfenster, um die Auswirkungen auf die Benutzer zu minimieren.
- Sicherheitsmanagement: Schutz der IT-Infrastruktur vor Bedrohungen und Angriffen ist eine kritische Aufgabe des Ops-Teams. Dies beinhaltet die Implementierung und Überwachung von Sicherheitsmaßnahmen, das Management von Firewalls und anderen Sicherheitssystemen sowie die Reaktion auf Sicherheitsvorfälle.
- Backup und Disaster Recovery: Das Ops-Team stellt sicher, dass Daten regelmäßig gesichert werden und dass effektive Disaster-Recovery-Pläne vorhanden sind, um im Falle eines Datenverlusts oder einer Katastrophe schnell wieder betriebsbereit zu sein.
- Dokumentation und Berichterstattung: Alle Vorgänge und Änderungen müssen sorgfältig dokumentiert werden. Diese Dokumentation hilft nicht nur bei der Nachverfolgung und Analyse von Vorfällen, sondern ist auch wichtig für die Einhaltung gesetzlicher und regulatorischer Anforderungen.
Ein Operationsteam spielt also nach der Entwicklung der betreffenden Software und deren Deployment eine entscheidende Rolle in der IT-Abteilung eines Unternehmens, indem es sicherstellt, dass die technologischen Ressourcen effizient und zuverlässig zur Unterstützung der Geschäftsziele genutzt werden. Ihre Arbeit ist oft im Hintergrund und wird erst wahrgenommen, wenn Probleme auftreten – dann jedoch zeigt sich ihre unersetzliche Bedeutung für den stabilen Betrieb der IT-Infrastruktur.
Eine enge Verbindung mit dem 2nd Level Support ist für die optimale Funktionalität von IT-Diensten daher unerlässlich. Sehen wir uns also an, was genau ein 2nd Level Support vornehmlich zu tun hat – denn dann verstehen wir auch besser, wieso Andi nachts um 3 wach ist, damit wir trotzdem z.B. gleich am nächsten Morgen eine tolle Funktion in unserem Auto abrufen oder sogar ganz neu abonnieren können:
2nd Level Support – Zweites Level, erste Klasse
Der 2nd Level Support in der IT ist eine spezialisierte Support-Ebene, die technische Unterstützung bietet, wenn Probleme oder Anfragen vom 1st Level Support nicht gelöst werden können. Hier sind die wesentlichen Merkmale und Aufgaben des 2nd Level Supports:
- Tiefere technische Expertise: Der 2nd Level Support besteht aus Technikern und Fachleuten mit tieferem technischem Wissen und spezialisierterem Fachwissen als das 1st Level Support-Team. Sie sind in der Lage, komplexere und spezifischere Probleme zu analysieren und zu beheben.
- Problembehebung und Fehleranalyse: Wenn der 1st Level Support ein Problem nicht lösen kann, wird es an den 2nd Level Support eskaliert. Dieser führt detaillierte Analysen durch, um die Ursachen der Probleme zu identifizieren und dauerhafte Lösungen zu finden.
- Unterstützung bei Eskalationen: Der 2nd Level Support bearbeitet Eskalationen, die über den 1st Level Support hinausgehen. Sie sind die nächste Eskalationsstufe und haben die Befugnis und die technischen Mittel, um tiefergehende Diagnosen und Korrekturen vorzunehmen.
- Zusammenarbeit mit anderen Teams: 2nd Level Support arbeitet eng mit anderen IT-Abteilungen, wie z.B. dem 3rd Level Support oder Entwicklungsteams, zusammen, um schwierige technische Probleme zu lösen. Sie fungieren oft als Vermittler zwischen dem 1st Level Support und spezialisierten Teams.
- Dokumentation und Wissensmanagement: Der 2nd Level Support dokumentiert Lösungen für wiederkehrende Probleme und pflegt die Wissensdatenbank, um zukünftige Anfragen schneller und effizienter bearbeiten zu können. Dies unterstützt sowohl den 1st Level Support als auch andere Teammitglieder.
- Benutzerkommunikation: Obwohl der 2nd Level Support weniger direkten Kontakt zu Endbenutzern hat als der 1st Level Support, ist er dennoch verantwortlich für die Kommunikation mit Benutzern bei der Bearbeitung von eskalierten Fällen. Sie informieren über den Fortschritt und die Lösungen der Probleme.
- Schulung und Unterstützung des 1st Level Support: Der 2nd Level Support bietet Schulungen und Unterstützung für den 1st Level Support, um deren Fähigkeiten zu verbessern und sicherzustellen, dass sie zukünftige ähnliche Probleme eigenständig lösen können.
Der 2nd Level Support ist also ein überaus kritischer Bestandteil des IT-Support-Systems eines Unternehmens. Er stellt sicher, dass komplexe und fortgeschrittene technische Probleme effektiv gelöst werden, um einen reibungslosen Betrieb der IT-Infrastruktur und eine hohe Zufriedenheit der Endbenutzer zu gewährleisten. Vor allem aber ist der 2nd Level Support eine Verteidigungslinie, eine „Feuerwache“ – laufen alle Systeme zufriedenstellend, freuen sich Entwickler und Operationsteams gleichermaßen. Fällt jedoch etwas aus, ist es nach dem 1st Level Support, der vor allem die direkten Anfragen von Stakeholdern wie Kunden entgegennimmt, der 2nd Level Support, der in der Pflicht steht, Funktionalitäten wiederherzustellen, besonders bei „High Priority Incident Tickets“. Da. Schon wieder dieser Begriff. „High Priority Incident“, was bedeutet das? Was ist ein Ticket? Was kommt darin typischerweise vor? Sehen wir uns also einfach mal ein konkretes Beispiel an, wie so ein Ticket aussehen könnte.
2nd Level Support – So sieht ein typisches High Priority Incident Ticket aus
Gucken wir also gemeinsam in Andis Ticketsystem, für das er auch nachts in Bereitschaft sein muss, um diesen Fall umgehend zu lösen. Während dieser zwar nachgestellten, aber sehr realistischen Problemstellung und -lösung erfahren wir dann auch, wieso genau manche Tickets so dringlich bearbeitet werden müssen.
Das Ticket:
Ticketbeschreibung:
Ticket-ID: 12345
Priorität: Hoch (High Incident)
Erstellt am: 15. Juli 2024, 02:00 Uhr
Erstellt von: 1st Level Support
Beschreibung: Lizenzverifizierungssystem nicht erreichbar
Details:
Problem:
Die Benutzer können sich nicht im Lizenzverifizierungssystem anmelden. Dies führt dazu, dass keine neuen Lizenzen für kritische Softwareprodukte ausgestellt oder verifiziert werden können. Betroffen sind mehrere Standorte weltweit, was den Produktionsprozess erheblich stört.
Auswirkungen:
Die Unfähigkeit, Softwarelizenzen zu verifizieren oder neue auszustellen, führt zu Produktionsausfällen und Verzögerungen bei der Auslieferung von Produkten. Dies betrifft sowohl interne Prozesse als auch die Beziehungen zu Lieferanten und Kunden.
Reproduzierbarkeit:
Das Problem tritt bei allen Benutzern auf und ist konsistent reproduzierbar.
Fehlermeldungen:
- „Verbindung zum Lizenzserver fehlgeschlagen“
- „Lizenzüberprüfung nicht möglich“
Schritte zur Reproduktion:
- Benutzer versucht, sich im Lizenzsystem anzumelden.
- Fehlermeldung erscheint unmittelbar nach dem Login-Versuch.
Erste Maßnahmen (1st Level Support):
- Überprüft, ob das Problem bei allen Benutzern auftritt.
- Netzwerkverbindungen und Serververfügbarkeit geprüft.
- Keine offensichtlichen Netzwerkprobleme festgestellt.
- Eskalation an 2nd Level Support wegen hoher Dringlichkeit.
Dringlichkeit eines High Priority Incident Tickets:
High Priority Incident Tickets sind Vorfälle, die einen erheblichen Einfluss auf den Geschäftsbetrieb haben und sofortige Aufmerksamkeit erfordern. Bei einem Lizenzverifizierungssystem können solche Tickets aus mehreren Gründen dringend und kritisch sein:
- Geschäftskontinuität: Die Produktionslinien könnten stillstehen, da lizenzpflichtige Software nicht genutzt werden kann. Dies führt zu direkten finanziellen Verlusten und beeinträchtigt die gesamte Lieferkette.
- Vertragsverpflichtungen: OEMs haben oft strenge Liefertermine und Vertragsverpflichtungen gegenüber ihren Kunden. Ausfälle können Vertragsstrafen nach sich ziehen und die Geschäftsbeziehungen gefährden.
- Reputation: Häufige oder langanhaltende Systemausfälle können das Vertrauen der Kunden in die Zuverlässigkeit des OEM beeinträchtigen.
- Weltweite Auswirkungen: Da das Problem globale Standorte betrifft, kann der Einfluss auf den Betrieb und die Produktionsplanung enorm sein.
Typische 2nd Level Support-Aktivitäten zur Problemlösung:
- Systemdiagnose: Tiefgehende Überprüfung der Systemlogs und Diagnosetools, um die Ursache des Problems zu identifizieren.
- Serverprüfung: Überprüfung der Lizenzserver und aller verbundenen Dienste auf Verfügbarkeit und Leistung.
- Datenbankprüfung: Sicherstellung, dass die Datenbank, die für die Lizenzverifizierung verwendet wird, korrekt funktioniert und keine Korruptionsprobleme aufweist.
- Netzwerküberprüfung: Überprüfung der Netzwerkverbindungen zwischen den betroffenen Standorten und dem Lizenzserver, um mögliche Kommunikationsprobleme zu identifizieren.
- Wiederherstellungsmaßnahmen: Falls erforderlich, Neustart von Servern und Diensten oder Umschalten auf Backup-Systeme, um die Funktionalität wiederherzustellen.
- Kommunikation: Regelmäßige Updates an das 1st Level Support-Team und die betroffenen Benutzer über den Fortschritt der Problembehebung.
Beispiel für die Lösung des Problems:
Nach intensiver Analyse stellt das 2nd Level Support-Team fest, dass eine kürzlich durchgeführte Firewall-Konfigurationsänderung den Zugriff auf den Lizenzserver blockiert. Sie nehmen die notwendigen Anpassungen vor und testen die Verbindungen, um sicherzustellen, dass das Problem vollständig behoben ist.
Ergebnis:
Ticketstatus: Gelöst
Lösung: Firewall-Regeln angepasst, Lizenzserver neu gestartet, Verbindungen getestet und wiederhergestellt. Alle Benutzer können sich wieder erfolgreich anmelden und die Lizenzverifizierung funktioniert einwandfrei. Der Produktionsbetrieb wurde schnellstmöglich wieder aufgenommen.
Andi atmet erleichtert auf – das Ticket ist gelöst, und das Operationsteam kann im Monitoring bereits erkennen, dass nun alle Server und Lizenzverifizierungsschnittstellen ordnungsgemäß funktionieren. Der OEM erwähnt den Einsatz im nächsten Meeting lobend (hier merkt man, dass die Geschichte frei erfunden ist – für solche Einsätze werden Verträge abgeschlossen, in deren Erfüllungsrahmen die Behebung von Tickets natürlich festgehalten und entsprechend erwartet wird). Allerdings gibt es hierbei durchaus weitere Besonderheiten und Unterschiede bei verschiedenen IT-Unternehmen wie zum Beispiel Cognizant Mobility.
Operations und 2nd Level – Der Reality Check
Natürlich ist Andi eine Fachkraft, wie alle seine Kolleginnen und Kollegen sowohl im Operationsteam als auch im 2nd Level Support. Häufig finden sich hier zum Beispiel:
- IT-Support-Spezialisten
- Systemadministratoren
- Netzwerkadministratoren
- Datenbankadministratoren
- Technische Support-Ingenieure
- Anwendungs-Support-Analysten
- IT-Service-Manager
- Technical Support Specialists
Dabei gibt es wiederum einige Core Skills, die für den Einsatz im IT-Support elementar sind:
- Tiefgehende IT-Kenntnisse: Umfassendes Wissen über Betriebssysteme (Windows, Linux, macOS), Netzwerkinfrastruktur, Server, Datenbanken und Unternehmensanwendungen.
- Fehlerbehebung und Problemlösung: Fähigkeit, komplexe IT-Probleme zu analysieren, die Ursache zu identifizieren und effektive Lösungen zu implementieren.
- Netzwerkkenntnisse: Vertrautheit mit Netzwerkprotokollen, Router-, Switch- und Firewall-Konfigurationen sowie VPN-Technologien.
- Datenbankmanagement: Kenntnisse in der Verwaltung und Wartung von Datenbanken (z.B. SQL, Oracle, MySQL), einschließlich Backup- und Wiederherstellungsverfahren.
- Sicherheitsbewusstsein: Verständnis von IT-Sicherheitsgrundlagen, einschließlich Firewall-Management, Anti-Malware-Tools und Sicherheitsrichtlinien.
- Skript- und Programmierkenntnisse: Grundlegende Kenntnisse in Skriptsprachen (z.B. PowerShell, Bash) oder Programmiersprachen (z.B. Python, Java) zur Automatisierung von Aufgaben und zur Erstellung von Problemlösungen.
Soziale und organisatorische Fähigkeiten:
- Kommunikationsfähigkeiten: Klare und präzise Kommunikation mit Kollegen und Kunden, um technische Informationen verständlich zu vermitteln und Supportanfragen effizient zu bearbeiten.
- Teamarbeit: Fähigkeit zur Zusammenarbeit mit anderen IT-Teams, wie dem 1st Level Support, Entwicklern und Netzwerkadministratoren, um Probleme schnell und effektiv zu lösen.
- Kundenorientierung: Fokus auf die Bedürfnisse der Benutzer und Kunden, um eine hohe Zufriedenheit und positive Nutzererfahrungen sicherzustellen.
- Zeitmanagement: Effektives Management der eigenen Zeit und der Priorisierung von Aufgaben, um sicherzustellen, dass kritische Probleme schnell behoben werden.
- Dokumentationsfähigkeiten: Präzise und detaillierte Dokumentation von Problemen, Lösungen und Prozessen zur Unterstützung des Wissensmanagements und der Einhaltung von Compliance-Anforderungen.
Bildung und Zertifikate:
- Bildungsabschluss: In der Regel ein Abschluss in Informatik, Informationstechnologie oder einem verwandten Bereich.
- Zertifizierungen: Branchenzertifikate, die das technische Wissen und die Fähigkeiten untermauern, wie z.B. CompTIA A+, CompTIA Network+, Microsoft Certified: Azure Administrator, Cisco Certified Network Associate (CCNA), ITIL Foundation, und andere spezialisierte Zertifikate je nach Tätigkeitsbereich.
Wir sehen also, dass zu Unrecht immer wieder auf den Support etwas herabgeblickt wird – diese Aufgabe ist anspruchsvoll und enorm wichtig. Kaum beachtet, solange alles reibungslos funktioniert, aber von enormer Wichtigkeit ab der geringsten Auffälligkeit.
Auch muss erwähnt werden, dass Fachkräfte dieser Tage stark gesucht und umworben werden. Remote Work, auch international, ist daher absolut an der Tagesordnung und bringt neue Herausforderungen mit sich. So arbeitet Cognizant Mobility beispielsweise mit Teams in Rumänien und China zusammen: Schon der Abgleich der Arbeitszeiten im Rahmen sehr unterschiedlicher Zeitzonen ist eine Challenge für sich. Dazu kommen Sprachbarrieren, hartes Teambuilding aufgrund sehr unterschiedlicher Hintergründe und Arbeitsweisen, verschiedener Mindsets, Religionen und sozialer Umgebungen.
Und dann ist da noch der Kunde.
Den Satz wollten wir für sich stehen lassen, denn: Eine hohe Kenntnis des Kunden, von dessen oft sehr umfangreichen und komplexen Begleitsystemen und Prozessen, ist mitunter unerlässlich, um Probleme überhaupt lösen zu können. Wenn für den Serverneustart eine neue IP-Adresse benötigt wird: In welcher Range? Wer vergibt sie und schaltet sie frei? Wer ist dafür zuständig? Der als Kunde auftretende OEM? Oder der Product Owner des Teilprojekts? Oder hat der Kunde gar seinerseits externe Dienstleister an Bord, mit denen sich ein 2nd Level Support verbinden muss? Hat dieser einen zeitlich abgestimmten 3rd Level Support, der helfen kann?
Operations und 2nd Level Support bei Cognizant Mobility
Da wir durchaus genauer wissen wollten, was man denn nun besser machen kann, haben wir uns unter anderem mit Daniel Melendez unterhalten, seines Zeichens Entwickler und Projektleiter bei Cognizant Mobility.
Und hierbei kam etwas heraus, dass wir für erwähnenswert halten, denn: Wo viele IT-Unternehmen, auch und gerade in der Zuliefererbranche, auf externe Anbieter für den 2nd Level Support setzen (kleine Unternehmen tun sich oft schon mit den benötigten Schichten schwer, um mal klein zu beginne), bietet Cognizant Mobility diesen intern an, in enger Kooperation mit dem für das Projekt zuständige Operationsteam, aus dessen Mitgliedern auch der Support besetzt wird.
Dies führt dazu, dass Support-Prozesse nicht nur optimiert und stetig weiterentwickelt werden können – es bedeutet auch, dass vorgefertigte Prozessstrukturen in einem Entwicklungsunternehmen bestehen, die kundenspezifisch angepasst und optimiert werden können, in direkter Abstimmung mit dem Projekt und dessen Mitarbeitern wie auch Stakeholdern. Eine exponierte Sonderstellung, die in dieser Form nicht oft anzutreffen ist.
Vor allem ist es aber eine einzelne, für sich stehende Erkenntnis, die den besonderen Erfolg der Operationsteams und des 2nd Level Support bei Cognizant Mobility begründen, und auch das möchten wir bewusst wieder in einzelnem Satz formulieren:
Das Rückgrat jedes erfolgreichen Projekts, unabhängig von Branche, Komplexität, Umfang oder Teilbereich sind: Die Menschen.
Menschen sammeln Erfahrungen, die natürlich in ausführlicher Dokumentation festgehalten werden kann, auch wenn ganz nach agilen Konzepten das Entwickeln funktionierender Software noch wichtiger ist als überexakte Mitschriften (die wir trotzdem wollen!). Menschen sind adaptionsfähig und neugierig, suchen nach neuen Wegen, gemeinsam mit den Stakeholdern, und entwickeln gemeinsam neue, innovative und zugleich organisch wachsende Strukturen und Prozesse. Menschen überwinden Zeitzonen, Sprachbarrieren und kulturelle Unterschiede und wachsen, quer über den Globus verteilt, zu organischen Teams zusammen, die ihre ganze kreative und produktive Power in Projekte stecken. Alles aus einer Hand, mit einem gemeinsamen Mindset. Und das ist keineswegs nur agiles Phrasendreschen: High Priority Incidents sind keine Seltenheit und verursachen angespannte, stressige Situationen – vor allem beim Kunden spielt sich dann oft ein hoher Grad an Aufregung ab. Hier ist das Operationsteam und der Support nicht nur Dienstleister, sondern oft auch Seelsorger und Psychiater, Finanzberater und Problemlöser in einem. Ein starkes Team, das nicht selten auch freundschaftlich verbunden ist, ist der Schlüssel zur erfolgreichen Bewältigung dieser Herausforderungen. Ohne diese Menschlichkeit und das gegenseitige Vertrauen wäre die Arbeit im Ops- und Supportbereich undenkbar.
2nd Level Support in Operationsteams: Was lernen wir?
Nun, das Fazit nahm der letzte Absatz an sich schon vorweg: Es geht um Menschen, es geht um eingespielte Teams, gemeinsam mit dem Kunden entwickelte Prozesse. Es geht um Andi, um dessen Skills, Probleme zu lösen (und ganz nebenbei: Andi steht für einen echten Menschen, den der Autor dieses Artikels persönlich kennt und mit Gewissheit sagen kann: Andi liebt es, sich diesen Herausforderungen stets aufs Neue zu stellen!). Es geht um die Verschränkung von Fachkenntnis, Systemwissen, enger Abstimmung zwischen Developers, Operationbetrieb und Support. Es geht um Gemeinsamkeit.
Andi klappt das Laptop zu und lächelt zufrieden. Es war anstrengend, aber es war auch richtig cool, das Problem zu lösen. Die finale Lösung hat Andi in der unternehmensinternen Wiki festgehalten und im Ticket verlinkt – kommt das Problem erneut, wird es binnen Sekunden lösbar sein und nur noch ein Schulterzucken bei der Kollegin oder dem Kollegen auslösen, die Supportdienst haben. Und jetzt wird Andi noch eine Stunde zocken, wo er eh schon wach ist, und dann wird weitergeschlafen.
Hat er sich verdient, der Andi.