tensorflow : ml lib google
keras : surcouche tensorflow
pytorch : ml lib facebook
scikit-learn : ml lib
xgboost : ml lib
kubeflow
airflow
mlflow
sagemaker
--> des plateformes pour prendre en charge la vie d'un projet Machine Learning (Training, stockage model, exposer un modèle via une api..)
https://github.com/volcano-sh/volcano --> scheduler
https://argoproj.github.io/argo/ --> pipelines
https://eksworkshop.com/advanced/410_batch/
serving models:
https://github.com/kubeflow/kfserving
https://www.seldon.io/ (need https://istio.io/)
joblib = un format de serialisation de données créé par scikitlearn + optimisé que Pickle pour les models de data science
Du benchmark simple avec :
https://docs.aws.amazon.com/autoscaling/ec2/userguide/as-scaling-target-tracking.html
https://docs.aws.amazon.com/autoscaling/ec2/userguide/as-instance-monitoring.html#enable-as-instance-metrics
https://www.terraform.io/docs/providers/aws/r/appautoscaling_policy.html
https://docs.aws.amazon.com/AmazonECS/latest/developerguide/service-auto-scaling.html
Pardefault les credentials temporaires donnés par un assume role sont valables 1h
C'est un peu juste en dev, pour augmenter cette periode :
1) dans le role en question, autoriser a demander +
2) au moment de faire le assume role en CLI, il faut passer un param pour demander +