Skip to content
This repository has been archived by the owner on Mar 29, 2020. It is now read-only.

Setup monitoring #366

Open
ClaudiuCeia opened this issue Feb 26, 2018 · 12 comments
Open

Setup monitoring #366

ClaudiuCeia opened this issue Feb 26, 2018 · 12 comments
Assignees
Labels
enhancement Self explanatory help wanted Liber la Pull Requests nice to have Optional, de livrat dupa urmatorul deploy

Comments

@ClaudiuCeia
Copy link
Member

Ce se întâmplă:

Nu stim, ca nu avem monitorizare

Ce ar trebui să se întâmple:

Sa stim ce se intampla

Pași pentru reproducerea problemei:

Specificații de sistem:

Commit hash:
Sistem de operare:

@ClaudiuCeia ClaudiuCeia added help wanted Liber la Pull Requests v1 must have Task critical pentru lansare (v1) labels Feb 26, 2018
@ClaudiuCeia
Copy link
Member Author

@superudu despre asta nu am mai apucat sa vorbim, dar nu e grav, backups e mai important acum.

In principiu ar fi bine sa putem monitoriza:

  • availability (nginx, mariadb, ssh, ping, etc.)
  • incarcare / load (disk, cpu, ram, etc.)

Poate ai si tu recomandari mai pragmatice sau alte sugestii. Din nou, nu e critic pentru acum pentru fiipregatit.ro sau ceva, dar it would be very nice indeed.

@ClaudiuCeia ClaudiuCeia self-assigned this Feb 27, 2018
@ClaudiuCeia ClaudiuCeia added enhancement Self explanatory nice to have Optional, de livrat dupa urmatorul deploy and removed v1 must have Task critical pentru lansare (v1) labels Feb 27, 2018
@superudu
Copy link
Collaborator

Am putea folosi Site24x7, include toate acele tipuri de monitorizare. Iar o licenta ce permite monitorizarea a pana la 10 servere costa 9$/luna (platit pe tot anul din start = 108$ ):
https://www.site24x7.com/site24x7-pricing.html

Exista si varianta Nagios, insa nu ofera acelasi standard. De exemplu ai o problema cu a vedea cu grafic care sa arate ca lumea sau sa vezi istoricul de evenimente sau disponibilitate.
E bun in schimb pentru a da alarma in caz de ceva.
Mai multe detalii are Lucian dintr-o discutie anterioara pe subiect.

Astept o decizie daca e ok Site24x7.

@ClaudiuCeia
Copy link
Member Author

N-avem bani! 👍

Dar revin cu un raspuns mai in detaliu, momentan poate sa ramana on hold.

@superudu
Copy link
Collaborator

superudu commented Mar 2, 2018

Ar mai fi ca varianta, doar pentru monitorizare uptime, UptimeRobot https://uptimerobot.com/
Este gratuit pana la 50 de website-uri monitorizate (la interval de 5 minute)
Si pare ca are si integrare cu Slack, deci ar putea fi trimise alerte pe un canal dedicat.

@ClaudiuCeia
Copy link
Member Author

Haha, da, UptimeRobot e deja setat (vezi si badge in README) :) Defapt avem si Pingdom pentru speed tests, dar care ofera si uptime checks. Chestia e ca in niciunul din cazurile astea nu stim ce anume s-a intamplat, doar ca nu mai e sus site-ul.

Cred ca suntem ok, cel putin momentan, nu e vital task-ul asta, dar e nice-to-have in ideea ca e totusi un site destul de accesat, iar la primul dezastru cu siguranta vom avea niste spike-uri f. mari.

@superudu
Copy link
Collaborator

superudu commented Mar 3, 2018

Pentru a vedea cauza dupa producerea unui incident cred ca ar merge sa fie instalat un cron cu un script care sa colecteze periodic date din sistem. Ii zic eu "personal monitor" si m-a ajutat in multe cazuri de servere picate in weeked sau seara. Iar comenzile pe care acesta le da sunt aceleasi pe care si eu le-as rula ca sa vad ce se intampla: disk, ram, procese, load etc. Si ramane sa le citesti dupa aceea sau ori de cate ori crezi ca ceva a fost in neregula la o anumita ora.
Alternativa cu sistem de alertare e mai buna, poti sa previi, dar presupune si sa ai pe cineva disponibil, un fel de om de garda pentru alerte si verificari. Pentru un server nu ar fi o problema, dar pe la 10-20 o sa vezi ca ai zilnic cate ceva de verificat.
Pana atunci recomand acel script de personal monitor.

@lucianstuparu
Copy link
Contributor

Pai din ce imi dau seama, daca am inteles corect, am putea deocamdata sa le folosim pe ambele: UptimeRobot + "personal monitor". Nu?

@superudu
Copy link
Collaborator

superudu commented Mar 4, 2018

Da.
Si cum UptimeRobot ati zis ca folositi deja, ar mai ramane sa pun acel script bash sa fie rulat de un cron si astfel am avea si date pe server pentru analiza la nevoie.

@ClaudiuCeia
Copy link
Member Author

E un inceput f bun! Mai avem de discutat un pic cu cei de la DSU legat de infrastructura, as recomanda sa asteptam un pic pana lamurim asta si dupa putem sa go ahead cu propunerea ta, what say you?

@dsecareanu
Copy link
Collaborator

Din ce am vb cu Claudiu these days, de explorat:
https://grafana.com/

@dsecareanu
Copy link
Collaborator

Am mai descoperit un tool open source:
https://my-netdata.io/#demosites

@dsecareanu
Copy link
Collaborator

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
enhancement Self explanatory help wanted Liber la Pull Requests nice to have Optional, de livrat dupa urmatorul deploy
Projects
None yet
Development

No branches or pull requests

4 participants