Commit Graph

90 Commits

Author SHA1 Message Date
Guillaume Raffy c309da0ef4 Bug 2120 - ajouter des stats sur l'évolution du cluster
- the cluster evolution graphs are now displayed on the intranet :
   - I had to make python graphing code handle debian 7 version of matplotlib; this was rather painful)
   - I had to handle the case where the default matplotlib backend doesn't work (because of no display)
2018-02-08 10:49:39 +00:00
Guillaume Raffy 7ca596a609 Bug 2120 - ajouter des stats sur l'évolution du cluster
- improvement : the figures can now be saved as svg files. This mechanism will be used by the intranet to display the cluster evolution graphs
- also removed debug prints that pollute stdout
2018-02-07 10:07:56 +00:00
Guillaume Raffy 3ba55f8758 Bug 1978 - trouver un moyen de rationaliser l'achat du r930 cper 2017
- refactoring : improved so that now PowerDiagram also uses the Inventory class instead of duplicating code. This will:
  1. make the code easier to maintain when there is a change in the inventory database tables
  2. make the code easier to adapt when we switch from a sql file to a mysql server
2018-02-07 08:43:05 +00:00
Guillaume Raffy 7c6656dc69 Bug 1978 - trouver un moyen de rationaliser l'achat du r930 cper 2017
- refactored so that Inventory class is now reusable (for example for PowerDiagram)
2018-02-06 17:42:18 +00:00
Guillaume Raffy b8c09eea89 Bug 1978 - trouver un moyen de rationaliser l'achat du r930 cper 2017
- refactored so that it now abstracts the database provider ; this way, accessing the inventory database through a database server instead of a sdl dump file is mostly transparent
2018-02-06 17:37:15 +00:00
Guillaume Raffy defc6936b5 Bug 1978 - trouver un moyen de rationaliser l'achat du r930 cper 2017
- préparation de graphique sur les investisseurs du cluster
2018-02-02 10:32:54 +00:00
Guillaume Raffy b7c60939a7 Bug 2044 - mettre simpatix88 en production
- added debug informations that helped debugging power diagram database issue while working on bug 2044
2018-02-01 10:55:08 +00:00
Guillaume Raffy 95e3f4a3ed Bug 1474 - clarifier la configuration électrique du rack3
From now on, the servers power diagram is available on http://intranet.ipr.univ-rennes1.fr/simpaweb/itteam/PowerDiagram/

- note : I initially thought I would use the jit (JavaScript InfoVis Toolkit) to display sexy interactive diagrams but I finally decided not to (although I managed to run an example) because:
  - svg is more printer-friendly, and could be saved as a file
  - generating jit data would have required more work, which doesn't add much value
  So, in a further commit, I will clean up the jit-related mess
2016-09-21 13:24:19 +00:00
Guillaume Raffy 8770bd488a Bug 1474 - clarifier la configuration électrique du rack3 : réorganisation du code pour que la génération du diagramme puisse s'effectuer par le site web intranet 2016-09-20 16:05:41 +00:00
Guillaume Raffy 3ad6206363 Bug 1458 - la page clusterstatus ne répond plus
- drastically improved the performance of JobsState.AddJob call (used for example in clusterstatus page) in case of big job arrays. As an example : clusterstatus page took 30 seconds when there was a job array of 500 elements ; this now takes 3 seconds. The culprit was a conflicting hash (I don't remember why I didn't make a non conflicting hash in the first place), that was the same for each job array element.
2016-09-06 09:47:56 +00:00
Guillaume Raffy 1cff78822e Bug 1458 - la page clusterstatus ne répond plus
- slightly improved speed by preventing unnecessary requests of job array element details

However, the big hit in performance is still in the dictionary of jobs in JobsState
2016-09-06 09:15:55 +00:00
Guillaume Raffy c0fa682d20 Bug 1322 - l'état des machines affichée par la page clusterstatus n'est pas fiable
désormais, pour éviter toute confusion, pour toutes le machines qui ne répondent pas :
- le load n'est plus affiché
- le bouton power affiche unknown
2016-05-03 12:19:24 +00:00
Guillaume Raffy 1e6a5247d8 j'ai oublié de publier ceci pour la résolution du bug 649 2014-06-19 16:15:11 +00:00
Guillaume Raffy d23c25ba06 Bug 521 - le cluster ne prend plus de jobs et qstat ne marche pas : correction qui fait que le code est beaucoup plus performant quand il y a des gros job array (alexandra a des job array de 1400 éléments) 2014-01-17 14:49:37 +00:00
Guillaume Raffy 5d10b89ee8 Bug 521 - le cluster ne prend plus de jobs et qstat ne marche pas : ajout d'un hack pour désactiver la collecte d'infos sur l'utilisation mémoire quand il y a trop de jobs (ou de taches) car ce code est excessivement lent et paralyse sge_qmaster. En attendant de trouver un vrai correctif 2014-01-15 13:43:52 +00:00
Guillaume Raffy 600db53653 Bug 289 - ajouter un mécanisme qui empêche la saturation de la mémoire sur un noeud : ajout de l'affichage de l'utilisation mémoire des jobs. Ce n'est pas encore peaufiné mais l'essentiel est là 2013-12-06 10:41:50 +00:00
Guillaume Raffy 9da884ce7f correction d'un problème qui faisait que clustercontroller ainsi que la page web clusterstatus plantait losque'une machine était réaffectée à une autre queue (et donc qu'une queuemachine était marquée comme obsolète) 2013-04-19 09:00:29 +00:00
Guillaume Raffy bf472a82f4 correction d'un problème qui faisait que clustercontroller ainsi que la page web clusterstatus plantait losque'une machine était réaffectée à une autre queue (et donc qu'une queuemachine était marquée comme obsolète) 2013-04-19 09:00:01 +00:00
Guillaume Raffy 862f45ec7a contournement du bug 269 2012-09-17 08:37:04 +00:00
Guillaume Raffy ef09dd6fec Bug 266 - clustercontroller s'est planté à cause d'un appel à qstat échoué : ajout d'informations qui permettront de cerner le problème exact si ça se reproduit 2012-09-05 15:05:39 +00:00
Guillaume Raffy 4a74aa93a9 ajout d'un commentaire lié au bug 251 2012-08-24 09:04:42 +00:00
Guillaume Raffy 36949c6c94 correction du bug 251 (je me demande pourquoi ce problème n'est pas apparu avant) 2012-08-22 12:34:22 +00:00
Guillaume Raffy 47b86312a6 correction du bug 240 : maintenant que les machines peuvent être ajoutées à la volée, les machines ne sont pas nécéssairement prêtes tout de suite 2012-07-03 14:38:29 +00:00
Guillaume Raffy 08f168809e import du ticket 10 dans bugzilla -> bug 239 2012-07-03 14:25:44 +00:00
Guillaume Raffy 224afd6591 correction de fautes de typo et ajout d'une variable en prévision d'un mécanisme d'arrêt du daemon 2012-07-03 14:24:41 +00:00
Guillaume Raffy a1ace896b9 tentative de résolution du bug 234 (je pense que ça le corrige mais je n'i pas vérifié) 2012-07-02 09:01:06 +00:00
Guillaume Raffy d67c4d6a21 dans l'optique de remettre ClusterController en production, les administateurs peuvent désormais ajouter ou supprimer une machine du contrôle du cluster controller 2012-06-28 12:22:07 +00:00
Guillaume Raffy 2c807fefe2 correction d'une erreur mineure dans les commentaires 2012-06-28 12:12:56 +00:00
Guillaume Raffy 265aac6064 correction d'un bug introduit dans le commit 2034 (je crois) : les slots sont désormais par queuemachine, et non pas machine 2012-06-28 12:11:21 +00:00
Guillaume Raffy 319c78dd86 ai ajouté un mécanisme (peu blindé mais qui fonctionne) qui permet d'ajouter ou d'enlever des machines du controle de ClusterController via un serveur http (pour la première fois, on peut interagir avec le daemon ClusterController) 2012-06-26 16:08:36 +00:00
Guillaume Raffy 006d8752c9 la page cluster status affiche désormais les états disabled et error des queues 2012-05-29 16:31:01 +00:00
Guillaume Raffy fa2dc0cd67 ajout de l'affichage des queues (on peut désormais voir sur quelle queue les jobs tournent). Cela a nécéssité des modifs dans les librairies cluster controller mais certaines modifications que je commite sont plus anciennes (je ne sais plus quand ça a été fait, ni dans quel but) 2012-05-29 14:05:18 +00:00
Guillaume Raffy 39616dc73c l'installeur déclare automatiquement la ressource sge has_matlab_2011b lorsque matlab 2011b est installé 2012-03-07 08:59:19 +00:00
Guillaume Raffy 0a8b21dda3 correction du bug 186 : Intégrer la configuration SGE des noeuds dans l'installeur 2012-02-07 14:14:48 +00:00
Guillaume Raffy d97fca4143 Ai remis le cluster controller en route. Il n'est pas si simple que ça à démarrer, alors j'en ai profité pour écrire l'installeur, qui tient également lieu de documentation. (partie 5) 2011-10-07 15:51:20 +00:00
Guillaume Raffy e326ab1976 Ai remis le cluster controller en route. Il n'est pas si simple que ça à démarrer, alors j'en ai profité pour écrire l'installeur, qui tient également lieu de documentation. (partie 4) 2011-10-07 15:48:15 +00:00
Guillaume Raffy 372ef28b17 Ai remis le cluster controller en route. Il n'est pas si simple que ça à démarrer, alors j'en ai profité pour écrire l'installeur, qui tient également lieu de documentation. (partie 3) 2011-10-07 15:46:50 +00:00
Guillaume Raffy 23b9665434 Ai remis le cluster controller en route. Il n'est pas si simple que ça à démarrer, alors j'en ai profité pour écrire l'installeur, qui tient également lieu de documentation. (partie 1) 2011-10-07 15:43:45 +00:00
Guillaume Raffy b195bb98d1 managed to get the cluster web application to use the cluster controller to retreive the machines state 2011-09-22 08:59:23 +00:00
Guillaume Raffy 1ae5ffd762 déplacement des scripts python pour les rendre partagés par tous les admins (j'en ai besoin pour d'autres applis que clustercontroller) 2011-04-18 09:32:19 +00:00