[Cloud Disk Array] Problème avec Proxmox

J'ai un cluster Proxmox V4.4-13, et j'essaie de l'intégrer avec le Cloud Disk Array.

Ma connection avec Ceph fonctionne sans problème, après avoir corrigé ma configuration.

Donc je crée l'entré Storage pour Proxmox, et de ce côté aussi tout semble fonctionner correctement.
Quand je crée un container LXC sur le storage Ceph, je reçois l'erreur que je dois activer le "KRBD" sinon cela ne marche pas.
Donc je l'active, et cela semble fonctionner. Jusqu'au moment ou je recois ce message d'erreur
In some cases useful info is found in syslog - try "dmesg | tail" or so.
rbd: sysfs write failed
TASK ERROR: can't mount rbd volume vm-999-disk-2: rbd: sysfs write failed

Donc en regardant l'output de DMESG, je vois ceci:

[1722614.271068] libceph: mon2 10.97.131.232:6789 feature set mismatch, my 106b84a842a42 < server's 40106b84a842a42, missing 400000000000000
[1722614.273320] libceph: mon2 10.97.131.232:6789 missing required protocol features
[1722624.310315] libceph: mon2 10.97.131.232:6789 feature set mismatch, my 106b84a842a42 < server's 40106b84a842a42, missing 400000000000000
[1722624.312793] libceph: mon2 10.97.131.232:6789 missing required protocol features

Et si j'enlève l'option krbd, j'ai ce message d'erreur:

TASK ERROR: krbd option must be enabled on storage type 'rbd'

Et si j'essaie de faire de même sur des VM KVM, il n'arrive pas non plus… Quand j'essaie de faire un move du disque local sur Ceph, j'ai ceci:

create full clone of drive ide0 (local:152/vm-152-disk-1.qcow2)
drive mirror is starting for drive-ide0
drive-ide0: Cancelling block job
drive-ide0: Done.
Removing image: 1% complete…

Removing image: 100% complete…done.
TASK ERROR: storage migration failed: mirroring error: VM 152 qmp command 'drive-mirror' failed - got timeout

Quand je regardes les permissions, j'ai ceci:

Pool: rbd
Lecture: Oui
Ecriture: Oui
Execution: Oui
Classread: Oui
Classwrite: Oui

Que dois-je faire?

Tu utilises quelle version du kernel?
feature set mismatch indique que le client n'arrive pas à communiquer avec le serveur.

Hmmmm je crois que j'ai trouvé le problème… je dois rebooter le serveur car il y a eu un mise à jour du kernel… d'ou le problème de mismatch gros soupire
Bon je sais ce que je vais faire ce soir!! :smiley:

Si tu le peux, je te conseille d'utiliser la librairie plutot que le kernel.

J'essayerais demain, une fois que j'ai fait le reboot des différents serveurs :slight_smile: merci du conseil

Bon après reboot rien n'a changé.
Quand je crée un container, j'ai absolument besoin de krbd, donc je suis obligé d'utilisé le module kernel pour cela.
Quand je l'utilise, je reçois cette erreur:

In some cases useful info is found in syslog - try "dmesg | tail" or so.
rbd: sysfs write failed
TASK ERROR: can't mount rbd volume vm-999-disk-3: rbd: sysfs write failed

et dans le dmesg j'ai encore cette erreur:

Jun 30 09:11:38 nig kernel: [12086.577847] libceph: mon1 10.99.191.232:6789 missing required protocol features

Et si j'utilise non pas un container mais une kvm, j'ai ce genre d'erreur lorsque je veux migrer un disque du disque local vers un disque ceph

Jun 30 09:13:39 nig kernel: [12207.574575] libceph: mon0 10.99.187.208:6789 missing required protocol features

et dans proxmox:

TASK ERROR: storage migration failed: can't mount rbd volume vm-152-disk-1: rbd: sysfs write failed

et si j'enlève le krbd, et je met le simple rbd, cela marche sans problème… :frowning:

Donc en gros je dois utiliser sans le krbd pour que cela marche… mais si je l'utilise tout le reste ne marche pas… et comme j'utilise que des container lxc… cela ne marche pas :frowning:

Est-ce qu'il y a une solution??? parce que la je suis assez deseperé, et je pense que je vais me faire rembourser cette offre qui ne semble pas fonctionner comme prévu.

Quelle est la version du kernel?

sur les 3 machines:

Linux nig.jahia.local 4.4.67-1-pve #1 SMP PVE 4.4.67-92 (Fri, 23 Jun 2017 08:22:06 +0200) x86_64 GNU/Linux

Voici les paquets installé sur les 3 serveurs que nous possédons:

ii pve-cluster 4.0-52 amd64 Cluster Infrastructure for Proxmox Virtual Environment
ii pve-container 1.0-100 all Proxmox VE Container management tool
ii pve-docs 4.4-4 all Proxmox VE Documentation
ii pve-firewall 2.0-33 amd64 Proxmox VE Firewall
ii pve-firmware 1.1-11 all Binary firmware code for the pve-kernel
ii pve-ha-manager 1.0-41 amd64 Proxmox VE HA Manager
ii pve-kernel-4.4.44-1-pve 4.4.44-84 amd64 The Proxmox PVE Kernel Image
ii pve-kernel-4.4.62-1-pve 4.4.62-88 amd64 The Proxmox PVE Kernel Image
ii pve-kernel-4.4.67-1-pve 4.4.67-92 amd64 The Proxmox PVE Kernel Image
ii pve-libspice-server1 0.12.8-2 amd64 SPICE remote display system server library
ii pve-manager 4.4-13 amd64 The Proxmox Virtual Environment
ii pve-qemu-kvm 2.7.1-4 amd64 Full virtualization on x86 hardware

et pour ceph

ii ceph-common 10.2.7-1~bpo80+1 amd64 common utilities to mount and interact with a ceph storage cluster
ii libcephfs1 10.2.7-1~bpo80+1 amd64 Ceph distributed file system client library
ii python-ceph 10.2.7-1~bpo80+1 amd64 Meta-package for python libraries for the Ceph libraries
ii python-cephfs 10.2.7-1~bpo80+1 amd64 Python libraries for the Ceph libcephfs library

Il faut le kernel 4.5 pour pouvoir utiliser ceph avec le tunable configuré.
Deux possibilités :

* Mettre le kernel à jour de ton côté
* Je change le tunable (protocole d'échange client/serveur) mais tu perds un peu en performances

Je te laisse choisir :slight_smile:

Je le trouve ou ce kernel 4.5?

Le dernier disponible est ici http://download.proxmox.com/debian/dists/jessie/pve-no-subscription/binary-amd64/ proxmox download

pve-kernel-4.4.67-1-pve_4.4.67-92_amd64.deb

Ou bien tu parles d'un kernel OVH, ou bien du vanilla kernel?

Dans tout les cas, il serait bien aussi de le préciser dans la doc qu'il faut un kernel 4.5, et surtout où le prendre. Car je ne me souviens pas de l'avoir lu quelque part…

Je te passe le tunable en hammer, c'est aussi possible via l'API.

Je ne connais pas du tout les kernels proxmox. Je sais que la nouvelle version utilisera luminous (prochaine version stable).

ok, merci
Je te donne un feedback asap

si jamais dans la documentation (https://docs.ovh.com/gb/en/cloud/storage/ceph/use-ceph-with-proxmox/) on parle de "You also need a proxmox, this documentation is made with proxmox 4.4-13" et nul part d'une version de kernel 4.5+.
Y compris dans les FAQs, il n'y a pas mention de ce point.

Hop c'est fait.
Dis moi si c'est mieux de ton cote.

Dans la doc on ne fait pas utiliser le kernel.
C'est un de mes mini projets en cours, rendre ceph plus user friendly. Il y a beaucoup de compatibilités possibles suivant les kernels/packages/versions.

L'idée c'est un script à lancer qui analyse le système et conseille la bonne version de ceph et de son tunable. Pas d'ETA pour le moment :wink:

Cool maintenant cela fonctionne! J'ai pu créé un container LXC sans aucun problème!
Tant pis pour la petite perte de perf :slight_smile: je vais voir dans un future +/- proche pour changer de kernel et je te demanderais de changer le setting pour le tuning!

En tout cas merci beaucoup!!! :slight_smile: Quand le script est là, je suis preneur!!! :smiley: beta testeur si tu veux!

Top :slight_smile:
Pour info via l'api, un PUT sur /dedicated/ceph/{serviceName} te permet de changer le tunable.