Pas toujours simple de s'y retrouver :
https://github.com/coreos/prometheus-operator
https://github.com/coreos/prometheus-operator/tree/master/contrib/kube-prometheus
La différence entre ces deux là est expliqué dans le README : https://github.com/coreos/prometheus-operator#prometheus-operator-vs-kube-prometheus
Ce qu'il faut retenir, c'est que si l'on veut une solution end-to-end de monitoring de son cluster, il faut utiliser kube-prometheus qui installe le prometheus operator et plein d'autres choses. D'après le Readme de kube prometheus, le projet s'utilise comme une lib qui permet de générer des manifests yaml qu'on va ensuite apply.
Le projet a aussi été packagé avec helm. Si on veut custom les manifests, ça a l'air plus facile à utiliser que le jsonnet de kube prometheus :
https://github.com/helm/charts/tree/master/stable/prometheus-operator
à tester sur serveurs perso
via pierrick
"prometheus only pull"
On peut aussi faire du push de manière détournée
tmux <3
while true; do python monitor_beanstalk.py; bg_color=$([ $? == 0 ] && echo "green" || echo "red"); tmux set-window-option -t${TMUX_PANE} window-status-bg $bg_color; sleep 30; clear; done
bien bien cet ebook, des parties très interessantes sur la comprehension des valeurs qu'il faut remonter (average = useless, median = better, 90/95percentile = the best)
En revanche toutes les parties technique qui dévrivent l'installation/configuration bof bof.. ça prends de la place, on les lit pas et si on veut vraiment mettre tout ça en place, on va se plonger dans les docs officielles et pas suivre betement le livre.
Mais quand même cool pour les premiers chapitres où il explique son approche.
Hop j'ai commencé à les regarder, bien plus intéressants que Dotscale à mon gout.
Quelques retours :
Pas forcément évident à installer, je suis parti sur la version "standalone" == on installe toute l'archi sur un seul host, ce qui est suffisant pour tester ou bien pour une petite infra.
Pour résumer il faut du redis, du rabbitmq (donc erlang), ensuite sensu (sensu-server sensu-client sensu-api) et enfin le dashboard libre uchiwa.
Ensuite côté clients, simplement le daemon sensu-client qui tourne (et bien configuré pour joindre le rabbitmq)
La doc est plutot bien faite mais parfois incomplete, beaucoup de partie "coming soon"...
Quelques ressentis à chaud :
On pourrait passer d'une stack : Nagios/collectd/graphite/grafana/statsd à une stack Sensu/Graphite/grafana/statsd
Je compléterai si je reviens dessus.
EDIT: je retire ce que j'ai dis sur uchiwa : on peut "stash" un service ou un host ce qui empeche de créer des events (alertes) à posteriori.
Du monitoring gratuit */5 minutes pour dépanner sur de petits projets
via Doo
Pour installer xymon rapidement
via doo
Une web interface pour visualiser les data dans influxdb (par influxdb)
Petite concurrence à Grafana pour le coup
Tiens j'avais loupé ça vu que j'étais en vacances. Donc un nouvel agent de collecte pour envoyer vers influxdb
Bonne idée de monitorer le rtorrent :)
Au passage découverte d'un frontend graphite/rrd : https://facette.io/
via skunnyk
Cool comme plugin. En deux mots ça permet d'améliorer les alertes Nagios en ajoutant un "contexte" au traditionnel message. Par exemple un graph rrd, le résultat d'une commande, une illustration visuelle du probleme..
Un outil pour monitorer son systeme qui a l'air bien + dev actif
"Think of it as strace + tcpdump + lsof + awesome sauce."
nmon > l > c > n > d
via arnaudb
statsd + graphite
Mais statsd en nodejs..
Un retour d'expérience sur graphite.
Meilleur que munin car rendu dynamique, plus d'options.
Article interessant : dissocier metrologie et supervision dans le domaine du monitoring
Tool pour monitorer des values exposées en jmx
$>beans
$>bean java.lang:name=G1\ Eden\ Space,type=MemoryPool
$> info
$> get XXX
echo "beans" | java -jar jmxterm-1.0-alpha-4-uber.jar --url localhost:9010 -n|grep -i garbage
echo "get -b java.lang:type=Memory HeapMemoryUsage" | java -jar jmxterm-1.0-alpha-4-uber.jar --url localhost:9010 -n
echo "get -b java.lang:name=G1\ Eden\ Space,type=MemoryPool CollectionUsage" | java -jar jmxterm-1.0-alpha-4-uber.jar --url localhost:9010 -n
or use input file
pid=$(ps...)
java -jar jmxterm-1.0-alpha-4-uber.jar -n <<EOF
open $pid
beans
EOF
Tools de monitoring à tester
via ArnaudB
Page chez datastax qui explique comment monitorer cassandra
Nagios is the industry-standard in IT infrastructure monitoring. Nagios provides enterprise-class Open Source monitoring of hosts, services, applications, and networks. Learn why organizations around the world trust Nagios to handle their IT infrastructure monitoring and business process continuity.
Zabbix is an enterprise-class open source distributed monitoring solution for networks and applications.