Instance down & bloquée depuis 60 heures !
BMPCreated with Sketch.BMPZIPCreated with Sketch.ZIPXLSCreated with Sketch.XLSTXTCreated with Sketch.TXTPPTCreated with Sketch.PPTPNGCreated with Sketch.PNGPDFCreated with Sketch.PDFJPGCreated with Sketch.JPGGIFCreated with Sketch.GIFDOCCreated with Sketch.DOC Error Created with Sketch.
Question

Instance down & bloquée depuis 60 heures !

by
AlixB5
Created on 2020-08-03 09:28:49 (edited on 2024-09-04 14:12:49) in Public Cloud OVHcloud

Bonjour,

Quelle horrible expérience que je rencontre avec le cloud OVH.

J'ai une instance b2-30 du Public Cloud OVH qui tourne depuis un mois. Mais vendredi soir, à 23H, le backup de l'instance semble avoir planté. Laissant l'instance "freezée" et impossible à ping/ssh/etc. Il est également impossible de la reboot ou de faire quoi que ça soit.

Quand je tente de la rebooter, j'ai ce message :
> Cannot 'reboot' instance 06532097-4510-xxx while it is in task_state image_backup

Le problème est que je suis en "task_state image_backup" depuis plus de 60 heures et je ne peux faire aucune commande.
J'ai joué avec le client nova api, mais il me retourne toujours le même message :
> Cannot "_command_" instance blabla while it is in task_state image_backup

J'ai lu la documentation openstack, etc. Je n'ai aucune possibilité ou droit, pour pouvoir changer cet état, ou annuler le processus de backup.

Vu que le support OVH ne semble pas se déclencher quand leur procédure de backup plante, est-ce quelqu'un ici aurait une idée de comment récupérer le contrôle de mon instance ?

Merci


6 Replies ( Latest reply on 2020-08-03 13:02:12 by
Sich
)

Bonjour,

Je peux regarder sur l'infra, il me faut la region et l'instance ID (par MP ou ici, peut importe)

Bonjour,

> GRA5
> 06532097-4510-481a-a139-bfb337b70e25

Dans ce genre de situation il faut prévenir le support, qui va ouvrir un ticket auprès des "admins" pour kill la task de backup et relancer la vm proprement.
Il n'y a malheureusement aucune autre action possible... Et c'est bien dommage, après un certain temps on devrait pouvoir forcer l'arrêt de la task et forcer un restart de la vm...

J'ai ouvert un ticket de suite. Mais le week-end, le support est inexistant.
Là on lundi 13h45, personne ne s'est penché encore sur mon problème...

J'ai ouvert un ticket, j'ai prévenu via Twitter, j'ai téléphone, j'ai ouvert un ticket sur ce forum. Je vois pas ce que je peux faire de plus.

Moi qui ait une vingtaine d'instance dans le Cloud OVH et qui continuait ma migration vers le cloud. Bien je suis définitivement calmé et je vais réévaluer mes options.

arf effectivement... d'où l'idée comme je l'ai dis + haut d'avoir une option dans le panel pour le faire nous mêmes après quelques heures de plantage...
Voir que ça le fasse tt seul au bout de 3/4H en envoyant une alerte par mail...

Bonjour,

C'est up.

Il y a un bug dans libvirt / qemu que nous sommes actuellement en train de traiter.
Il affecte les snapshots comme le votre.

Je ne sais pas encore combien de temps va nous prendre la resolution de ce bug.
Le seul moyen pour le moment pour empecher de pb, c'est de passer par un administrateur.
Le ticket au support est la bonne solution, mais je suis conscient que cela prend parfois du temps.

Desole.

Merci pour la réponse.

Mais je ne peux pas me permettre d'attendre + de 48h. Certaines instances que je gère contiennent des sites commerçants où des emplois sont en jeu.

Est-ce que vous pourriez me passer, à titre gracieux, mon niveau de support à Business, le temps que vous régliez ce soucis ? Cela serait la moindre des choses que je puisse rapidement avoir un interlocuteur, à n'importe quelle heure si cela se reproduit.

Edit : Pouvez-vous mettre à jour le ticket 7002491643 ?


arf


chaque fois que je vois "arf" je me demande si c'est une interjection ou bien un acronyme voulant dire "Abort, Retry, Fail ?" (les plus jeunes n'ont pas connu cela)


Est-ce que vous pourriez me passer, à titre gracieux, mon niveau de support à Business, le temps que vous régliez ce soucis ? Cela serait la moindre des choses que je puisse rapidement avoir un interlocuteur, à n'importe quelle heure si cela se reproduit.

Non je n'ai pas ce droit la, il faut faire cette demande sur le ticket support.



Edit : Pouvez-vous mettre à jour le ticket 7002491643 ?


Idem, sorry :(


Mais je ne peux pas me permettre d'attendre + de 48h. Certaines instances que je gère contiennent des sites commerçants où des emplois sont en jeu.



Les dédiés sont + fiables pour ça...
Perso j'ai moins de problèmes avec les dédiés qu'avec les cloud...

Sinon le grand classique du cluster... Mais ça fait vite usine à gaz...

En prenait des offres dans le cloud (qui sont plus cher que du dédié pour config équivalente), je pensais m'offrir une forme de tranquillité (support ovh, ne me soucier du matériel, etc).

Au final, je n'ai jamais été aussi tendu qu'avec le cloud.

D'ailleurs, ils ont stoppés mon instance de manière abrupte (j'ai un uptime de qq dizaines de minute), ma base de données est totalement crashée, je n'arrive pas à la remonter...

J'ai fait une réclamation. On va voir leur réponse, ça me fixera sur mon avenir chez OVH.


J'ai fait une réclamation. On va voir leur réponse, ça me fixera sur mon avenir chez OVH.



OVH est très bon sur les dédiés.
La nouvelle offre VPS SSD est pas mal aussi.
Les public cloud ça fonctionne pas trop mal et ça permet de démarrer pas trop cher (même si maintenant à pas cher il vaut mieux passer sur les VPS SSD).

En fait le public cloud on est censé s'en servir pour des vms "jetable" du genre frontaux web derrière un load balancer, et le core infra on mets ça sur du dédié, du private cloud... Voir pour la bdd monter un cluster mariadb sur 3 instances (mini) public cloud avec un groupe anti affinité pour éviter que les 3 instances soient sur le même host...

Le public cloud en solo c'est pas vraiment le top, même si j'en ai plusieurs qui tournent bien, mais on n'est pas à l'abri d'un transfert à l'arrache sur un autre hôte qui va bousiller les bdd (du vécu), un backup qui plante pendant des heures (vécu aussi), etc...
Mais ces problèmes là même si ils sont très pénalisant restent très rares malgré tout...


chaque fois que je vois "arf" je me demande si c'est une interjection ou bien un acronyme voulant dire "Abort, Retry, Fail ?" (les plus jeunes n'ont pas connu cela)



Je me souviens oui :)