DevOps 101 s Atlassian- stavíme produkty stylem DevOps, řešení chyb a klientský servis

05.06.2017 | Proces řešení klientského servisu u Atlassian, postup při řešení nahlášených incidentů

Před pěti lety Marc Andreesen prohlásil, že software sžírá svět.
Koneckonců- jaká společnost se v dnešní době nezabývá software?

DevOps není pouze prací jednotlivce, je o spoluúčasti všech.

 

Ale co věci, které nefungují tak, jak byly plánované? Jako například když vypustíte novou funkci a ta nefunguje optimálně? To je přesně okamžik, kdy se dostává ke slovu náš tým ze servisního kruhu. Naší prací je potencionální incidenty dělat lehce odhalitelné a jednoduše opravitelné – a krom toho také aby se v budoucnu neopakovaly.

Využíváme ITIL jako základní Framework pro naše služby. Ten nám dává standardizovanou terminologii a procesy, které nám usnadňují společnou komunikaci a kooperaci.

Lépe specifikováno- ITIL nám nabízí slušný základ pro to, jak specifikovat a klasifikovat problémy, stejně tak, jako to, jak je řešit a zjistit jejich primární příčinu.

Řešení problémů v Atlassian

Někdo, nebo něco nahlásí incident

O výpadcích a potenciálních chybách se dozvídáme dvěma způsoby:

  • Uživatelé nahlašují případy pomocí JIRA Service desk
  • Na případy nás upozorní náš monitoring (Cacti, DataDog, Zabbix, and Nagios) a pošle nám notifikaci

Agregujeme upozornění do HipChatu

Všechny naše upozornění shromažďujeme do jednoho streamu v místnosti na HipChat- takže naše týmy se dozví, že existuje problém.

To někdy se sebou přináší šum, pak se obracíme na nástroje BigPanda. BigPanda nám pomáhá korelovat velké množství výstrah, které také uspořádá chronologicky a logicky, čím nám šetří další čas.

Vytvoříme issue pro daný případ

Čas od času tým sám ví, že chybu může způsobovat změna, kterou provedli, ale častěji ne. Pak musíme dávat dohromady tým vybraných lidí, abychom správně určili, kde je problém a vyřešili jej.

Prvním krokem k tomu je zadání Issue v JIRA.

Dáme vědět našim uživatelům

Ke komunikaci s interními, ale i externími zúčastněními stranami využíváme StatusPage.io  a v pravidelných intervalech aktualizujeme stavy ohledně incidentů a problémů.

Vytváříme dedikovanou místnost a swarm k řešení problému

V rámci Issue s incidenty v JIRA Service Desk používáme příkaz "create room“ pro přesun konverzace na specializované HipChat místnosti a vytažení správného týmu, aby se zabývali řešením daného problému. 

Tým diskutuje o tom, co nastalo a schvaluje si postup pro řešení problému.

Nakonec, proneseme rozhodnutí post-morten a zdokumentujeme „co se stalo“

Asi nejvíce kritickým krokem k řešení problémů je fakt se z nich poučit. V Atlassian máme několik nástrojů a možností k „post-incident“ revizím.

My tak můžeme snadno dohledat, zda problém v minulosti již nenastal a případně využít již použité řešení. Confluence nám také umožňuje vytvořit šablony pro nové problémy, je tak velice snadné zapsat nově objevené problémy a jejich řešení.

JIRA nám umožňuje vytvářet struktury pro zadané práce a určit jednoznačné workflow k daným procesům.

Naše tipy

  • Sbírejte data, dokud jsou svěží a máte je na paměti

Využíváme workflow v JIRA, které jsme vyvinuli, aby celý reportovací proces prošel přes dané členy, přes ty, přes koho projít má. Každý krok má jasně stanovený termín a vymezený časový interval.

  • Mějte jistotu, že vše dokumentujete v knowledge-base

Všechny reporty incidentů zapisujeme do Confluence- a propojujeme je s JIRA issue, takže kdykoliv máme zpětnou vazbu k již existujícím případům, případně i těm podobným.

  • Správně využívejte nástroje auditu

V JIRA spouštíme reporty, abych věděli, jak si naše týmy vedou při procesu řešení problémů, to včetně dokumentování výsledků.

Tím, že jsme zavedli lepší procesy workflow a diagnostické nástroje se nám podařilo standardní čas diagnostiky snížit ze 113 minut pouze na 23- a v plánu máme jej redukovat ještě více.

Čas pro váš DevOps příběh

V těchto článcích jsme vám nastínili, jak Atlassian praktikuje DevOps za vlastními zdmi, podívali jsme se na nástroje využité ke kontinuálním dodávkám a vývoji, ale i ke správě infrastruktury.

Podívali jsme se na Atlassian nástroje ale i nástroje třetí strany, které oba týmy (dev + ops) používají ke zvýšení naší výkonnosti a kvality, a dokonce jsme se podívali na to, jak standardizované postupy jako ITIL pomáhají vyřešit případy rychleji a efektivněji, když se v Atlassian nevyhnutelně objevují problémy.

Ale co váš příběh? Rádi bychom slyšeli různé způsoby, jakým DevOps posouvají vaši společnost.

Čím jedinečnější praktikování bude, tím lépe.

 

Zdroje:

https://www.clearvision-cm.com/wp-content/uploads/2017/04/devops-ebook-final.pdf 
(„DevOps, Promote the philosophy across your organization“, Atlassian)


Pro další informace o novinkách Atlassian a JIRA sledujte web www.myJIRA.cz.

Diskutujeme také na LinkedIn ve skupině Atlassian komunita CZ & SK.

V případě dotazů se obraťte na atlassian_zavináč_onlio.com nebo na tel. +420222744766


Pavel Novák, Java developer

Zpět