Le NetBoot ne marche plus sur les serveurs en RAID ?

Bonjour à tous !

J'ai récemment eu un incident sur un serveur qui m'a amené à le passer en NetBoot (que je n'avais plus utilisé depuis un bon moment). Surprise : le serveur n'a pas booté.

Après avoir résolu mon problème autrement, je me suis promis de creuser cette histoire de NetBoot qui n'a pas fonctionné comme souhaité.

J'ai donc réinstallé fraîchement un Kimsufi (qui me sert de serveur de test) à l'aide de plusieurs distributions (Debian 10, 11, CentOS,…). J'ai utilisé les paramètres par défaut à l'installation et je n'ai strictement rien fait sur le serveur. Je me suis contenté de le passer en NetBoot et de le rebooter. J'obtiens à chaque fois le même résultat : plus de ping.

Si je laisse le monitoring OVH activé, cela déclenche une intervention du service technique qui se contente de rebooter le serveur sur disque avec le message suivant :
> Le serveur est sur l'écran de connexion, mais ne répond pas aux requêtes de ping. Aucun pare-feu n'a été détecté sur le serveur, alors nous avons effectué un redémarrage logiciel. Le serveur est démarré sur disque et est sur l'écran de connexion. Ping OK et les services sont ouverts.

Impossible d'obtenir plus de précisions de la part du support (c'est du Kimsufi, ils ne répondent pas).

A noter aussi que le serveur que j'utilise pour mes tests possède 2 disques et que, par défaut, ils sont installés en RAID 1. J'ai donc voulu voir si ça ne pouvait venir de là et j'ai réinstallé une énième fois le serveur, mais juste sur le premier disque. Pas de RAID donc … et là le NetBoot passe très bien, le serveur reboot sans problème !

Donc ça viendrait du RAID ? Le NetBoot OVH aurait-il un problème avec le RAID soft ? Si oui, ça doit concerner un paquet de serveurs… Quoi qu'il en soit j'en suis là et je suis un peu perplexe ; quelqu'un aurait-il un peu d'eau à apporter à mon moulin ?

Pour la petite histoire, notez j'ai essayé plusieurs "root device" lors du passage en NetBoot. J'ai bien sûr commencé par indiquer /dev/md2 (qui correspond au RAID installé par défaut sur ce serveur), mais j'ai également essayé avec l'UUID (genre /dev/disk/by-uuid/dabdc830-138c-4353-ba6b-1c2f2c92bacc). En vain : ça ne marche pas car le manager ne semble accepter que des valeurs /dev/sd* et /dev/md*

Salut @Nico94 ,
Intéressant et assez inquiétant..
Dommage qu'il n'y ai pas de KVM sur IP chez kimsufi (même si le rapport d'intervention dit que l'écran est noir).
Mon dernier netboot remonte à qq années sur serveur OVH -> sans souci
Je vais essayer de faire un test sur un serveur SYS (pas simple je n'ai plus de machine de tests et les serveur pas cher sont tous en rupture de stock).

Merci de ton intervention :slight_smile:

Pour l'anecdote, le serveur dont je parlais au tout début de mon post précédent (par lequel tout a commencé) est un SoyouStart avec 2 disques SSD en RAID 1 et installé en Debian 10. Je ne peux malheureusement pas m'amuser avec, il est en prod.

Suite de mes palpitantes aventures : entre temps, je me suis dit que ça pouvait peut-être être lié à /etc/fstab qui, depuis quelque temps maintenant, contient les UUID et non plus les noms des partitions.

J'ai donc installé quelque chose de vieux, une Debian 9, pour voir ce que ça donne. Et bien non seulement fstab contient là aussi désormais des UUID … mais le NetBoot fonctionne !

Donc, non seulement ce n'est pas lié à fstab, mais en plus cela n'impacte pas absolument toutes les distributions proposées à l'installation.

Quelques gouttes d'eau en plus pour le moulin … mais je ne suis toujours pas fort avancé.

Cela pourrait être un mauvais choix de noyau sur le netboot ?
Ce qui est sur c'est que mon dernier netboot étais sur une Debian 10.

J'ai prévu a arret pour maintenance sur une prod (Debain 11) SYS ce weekend. J'essaierai de prendre le temps de tester ça.

Cool, merci :slight_smile:


Cela pourrait être un mauvais choix de noyau sur le netboot ?

Bah non : il n'y a désormais plus qu'un seul noyau disponible (un seul choix dans le menu déroulant) pour le NetBoot.

J'ai testé avec 2 serveurs SYS (debian 10 nvme et debian 11 ssd) et dans les 2 cas, en 2heures de temps, j'ai été incapable de faire fonctionner le netnoot.

Je suis tombé sur ça : https://wp.itworks.cuicui.org/2013/05/16/reconciliation-ovh-raid-grub/ où l’admin dit :
> En cas de soucis, aucun kernel ne bootera. Les kernels netboot OVH attendent du /dev/md1/

Le post est vieux et cela ne semble pas être le souci car sur une des machine c'est bien md1 (et sur l'autre md2) :

cat /proc/mdstat
Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10]
md1 : active raid1 sdb1[0] sda1[1]
451939328 blocks super 1.2 [2/2] [UU]
bitmap: 1/4 pages [4KB], 65536KB chunk

unused devices:

C'est moche… à suivre.

Si un corp OVH pouvait passer par ici et nous donne un avis, ça serait top.

En tout cas merci d'avoir pris le temps de tester !

Bonjour,
Mon serveur est down car OVH a supprimé NetBoot depuis juin …
https://community.ovh.com/t/netboot-reseau-dedie-soyoustart-inaccessible/54545?u=fapm

Salut @FAPM,

Je suit ton autre post principal sur ton problème mais n'ai pas de solution à t'apporter :frowning:
En tout cas, sur mes machines SYS le netboot est encore disponible



Bon courage à toi.

Salut @TTY,
Si tu vas dans Réseau, théoriquement, tu ne peux plus sélectionner un kernel, c'est vide …

C'est vrai :frowning:
Et c'est moche…