Arrêt de mes jobs batch sur VPS après quelques secondes ?

Bonjour,

Depuis aujourd'hui, pas moyen de lancer un job batch sur mes 2 VPS. Ils s'arrêtent au bout de quelques secondes de calcul : message "terminated" , sans autre explication.
Je lance ces jobs avec at, qui sert à lancer des job cron. ça a marché depuis plusieurs semaines, et voila que tout d'un coup ça ne marche plus. Y'a un quota pour les jobs cron?
Je viens de lancer les deux job en interactif sur chacun des VPS, pas de problème, ils tournent. Mais ce qui m'intéresse c'est de la lancer en batch, je ne veux pas rester connecté, ce sont des calculs de rendu avec Blender.
Une idée du problème?


message "terminated"


D'habitude ce message arrive dans le process qui a été killé.
Tu es sûr que tu n'es pas à court de mémoire ?
A ma connaissance dans les process batch il n'y a pas de ulimit.

C'est toujours des exe de Blender donc si j'avais été à court de mémoire, ça me l'aurait dit depuis un mois. Je ne fais que calculer l'image suivante d'une série, et boum, et sur les deux VPS en même temps, depuis ce midi c'est niet.
On dirait que les process sont tués effectivement, mais qui les tue???
Là, vers 18h, je viens de les relancer tous les deux, et ça les a retués.
J'ai regardé la page des travaux, il n'y a rien aujourd'hui sur les VPS.

PS : qu'est-ce que c'est que ces loops ??? :

Filesystem 1K-blocks Used Available Use% Mounted on
udev 949188 0 949188 0% /dev
tmpfs 198628 984 197644 1% /run
/dev/sda1 20145724 7627772 12501568 38% /
tmpfs 993136 0 993136 0% /dev/shm
tmpfs 5120 0 5120 0% /run/lock
tmpfs 993136 0 993136 0% /sys/fs/cgroup
/dev/sda15 106858 9336 97522 9% /boot/efi
/dev/loop1 188544 188544 0 100% /snap/blender/65
/dev/loop2 100736 100736 0 100% /snap/core/10823
/dev/loop5 56832 56832 0 100% /snap/core18/1988
/dev/loop4 56832 56832 0 100% /snap/core18/1944
/dev/loop6 73216 73216 0 100% /snap/lxd/19389
/dev/sdb 51343840 16428772 32277244 34% /mnt/sdb
/dev/loop8 191616 191616 0 100% /snap/blender/111
/dev/loop3 73216 73216 0 100% /snap/lxd/19566
/dev/loop7 101632 101632 0 100% /snap/core/10859
tmpfs 198624 0 198624 0% /run/user/0

Si je comprends bien c'est snap qui crée ces loops, ce ne serait pas ça le pb? Snap : gestionnaire d'applis.


Si je comprends bien c'est snap qui crée ces loops, ce ne serait pas ça le pb? Snap : gestionnaire d'applis.


A ta place je regarderais les log (dans /var/log) souvent la réponse s'y trouve.

que c'est que ces loops


à mon avis des sockets pour de la communication entre process...

Ok, j'ai compris, ce matin j'ai tué les process, car l'os demandait une mise à jour et je craignais qu'il me demande de redémarrer les instances, suite à ces mises à jour. En fait il ne me l'a pas demandé, j'aurais mieux fait d'attendre qu'il me le demande effectivement.
Or, en plantant mes process, j'ai du me tromper , tuer un de ces process "loop snap", et après ça doit être plus ou moins persistant, il croit toujours que je redemande de tuer le process que je viens de lancer.
Je vais redémarrer les instances, ça devrait tout remettre d'aplomb.

Non, ce n'est pas ça, j'ai redémarré les instances et c'est toujours pareil.
Dans le fichier /var/log/syslog , j'ai ce message:
Server returned error NXDOMAIN, mitigating potential DNS violation DVE-2018-0001, retrying transaction with reduced feature level UDP.

Ça veut dire quoi? De toute façon il dit qu'il va reessayer (je ne sais quoi) en abaissant le niveau de fonctionnalité, chose qu'il a du faire, après je ne vois pas d'autres messages d'erreur.

Je… je l'aurai un jour…

Ps : je crois que je l'ai grugé : j'ai lancé mes jobs en background, avec & , j'envoie mes sorties et mes erreurs sur des fichiers. Ca a l'air de marcher.
Je ne passe pas par le cron. En fait c'est le cron qui est vérolé ou qui ne veut plus de tâches "loop", une mise à jour et un redémarrage ne corrige rien.


NXDOMAIN


ça c'est une erreur DNS: domain not found.

Je ne passe pas par le cron.


Plus haut tu parlais de batch. Batch est un composant du package 'at'.

Pour cron, regarde un peu s'il y a des limites imposées dans '`systemctl show crond.service`'