[MEGOLDVA]clvmd mindent, rgmanager semmit nem akar aktivalni

Fórumok

hello

tanácstalanul fodulok hozzátok. Adott egy két node-s cluster (CentOS 6.4)
cman/clvmd/rgmanager triót használ.
A szitu az, hogy clusterezett lvm automatikusan aktiválódik mind a két node-on (azaz minden clvm látható mindenhol). Ezután az rgmanager pedig szépen elindítja a szolgáltatásokat.

lvm2-lvmetad nem fut/tiltva
az lvm.conf-ban a locking_type beállítva 3-ra azaz cluster.
ha manuálisan inaktivállom az lvm-et lvchange -an vg/clvm akkor az rgmanager nem kapcsolja őket vissza és elszáll.
de a legfurább az hogy ha restartolok akkor minden aktív pedig előtte inaktiváltam az lvm-ket.
Az /usr/share/cluster/lvm_by_lv.sh szerepel az "lvchange -aey" parancs csak semmi sem hívja meg.
Nem értem a dolgot. Egy másik gépen ugyan ezzel a configgal működik. (ja ugyan abból az image-ből készült mind a két cluster).
Az lvm.conf:

devices {
dir = "/dev"
scan = [ "/dev" ]
obtain_device_list_from_udev = 1
preferred_names = [ "^/dev/mpath/", "^/dev/mapper/mpath", "^/dev/[hs]d" ]
filter = [ "a/.*/" ]
cache_dir = "/etc/lvm/cache"
cache_file_prefix = ""
write_cache_state = 1
sysfs_scan = 1
multipath_component_detection = 1
md_component_detection = 1
md_chunk_alignment = 1
data_alignment_detection = 1
data_alignment = 0
data_alignment_offset_detection = 1
ignore_suspended_devices = 0
disable_after_error_count = 0
require_restorefile_with_uuid = 1
pv_min_size = 2048
issue_discards = 0
}
allocation {
maximise_cling = 1
mirror_logs_require_separate_pvs = 0
thin_pool_metadata_require_separate_pvs = 0
}
log {
verbose = 1
silent = 0
syslog = 1
overwrite = 0
level = 0
indent = 1
command_names = 0
prefix = " "
}
backup {
backup = 1
backup_dir = "/etc/lvm/backup"
archive = 1
archive_dir = "/etc/lvm/archive"
retain_min = 10
retain_days = 30
}
shell {
history_size = 100
}
global {
umask = 077
test = 0
units = "h"
si_unit_consistency = 1
activation = 1
proc = "/proc"
locking_type = 3
wait_for_locks = 1
fallback_to_clustered_locking = 1
fallback_to_local_locking = 1
locking_dir = "/var/lock/lvm"
prioritise_write_locks = 1
abort_on_internal_errors = 0
detect_internal_vg_cache_corruption = 0
metadata_read_only = 0
mirror_segtype_default = "mirror"
use_lvmetad = 0
thin_check_executable = "/usr/sbin/thin_check"
thin_check_options = [ "-q" ]
}
activation {
checks = 0
udev_sync = 1
udev_rules = 1
verify_udev_operations = 0
retry_deactivation = 1
missing_stripe_filler = "error"
use_linear_target = 1
reserved_stack = 64
reserved_memory = 8192
process_priority = -18
mirror_region_size = 512
readahead = "auto"
raid_fault_policy = "warn"
mirror_log_fault_policy = "allocate"
mirror_image_fault_policy = "remove"
snapshot_autoextend_threshold = 100
snapshot_autoextend_percent = 20
thin_pool_autoextend_threshold = 100
thin_pool_autoextend_percent = 20
use_mlockall = 0
monitoring = 1
polling_interval = 15
}
dmeventd {
mirror_library = "libdevmapper-event-lvm2mirror.so"
snapshot_library = "libdevmapper-event-lvm2snapshot.so"
thin_library = "libdevmapper-event-lvm2thin.so"
}

Van vlakinek vlami ötlete?

Hozzászólások

Én megnézném, hogy a vgdisplay, lvdisplay etc. mit mondanak, meg esetleg az rgmanager hibaüzenetét sem ártana ismerni.

Aki tudja, csinálja, aki nem tudja, tanítja... Hm... igazgatónak talán még jó lennék. :)

jogos
http://pastebin.com/YFRH399z

bár én nem látok benne semmi hasznáhatót. az rgmanager jogosan panaszkodik hogy nemlétező eszközök, de megkéne próbálnia aktiválni (lvchange -aey vg_clusvcs/lv_***) de nem teszi :(

plusz info, részlet a cluster.conf-ból:
http://pastebin.com/jwAuuX3K

de mondom, ugyan ez a konfig a másikon megy. szóval szeritem nem a cluster körül van a gond....
--
A legértékesebb idő a pillanat amelyben élsz.
http://phoenix-art.hanzo.hu/
https://sites.google.com/site/jupiter2005ster/

Hát részemről passzolom. HPUX-on szoptam ilyenekkel (cluster+LVM és ez is több, mint öt éve), linuxos téren csak találgatni tudnék.
Triviális dolgot nem látok rajta.

https://www.redhat.com/archives/linux-cluster/2012-October/msg00033.html
Itt van valami hasonló, ami még rémlik a múltamból.

Nem tudom, nem kell-e valahová beírni a vg-t/lv-t használó node-okat, esetleg ha kell, nem maradt-e ki valahonnan az egyik node-od? Ilyesmi jut eszembe.

Aki tudja, csinálja, aki nem tudja, tanítja... Hm... igazgatónak talán még jó lennék. :)

Nade hol van a clvmd? Mi aktivalja a cluster VG-t?

Aszondja az almoskonyv:

The clvmd service activates all clustered volume groups when it starts (usually automatically on boot). If this service did not start for some reason, then those volume groups would not be active, and the clusterfs resource would be unable to find the device it is configured to mount.

If clvmd is running, then its possible that someone/something deactivated the volume group at some point, such as during maintenance, and never activated it again. Usually the solution to this problem is to simply reactivate the volumes and restart the service.

--
L

Nade pont errol van szo :) A VG aktivalasat a clvmd vegzi el, ha clusteres a VG. Bootolaskor, illetve a clvmd inditasakor tehat aktivva valik. Ha te kezzel inaktivalod, akkor azt az rgmanager nem fogja neked ujraaktivalni, hiszen neki nem ez a dolga.

$0.02

--
L

Eddig jutottam én is - még HPUX-os emlék: ha manuálisan inaktiválok valamit, az automata nem fogja újra aktívvá tenni - viszont ő azt állítja, hogy a másik, hasonló konfigurációjú clusteren működik. Ettől kezdve nem mertem ilyesmit írni, mert linuxos clustert még csak kívülről láttam működni.

Aki tudja, csinálja, aki nem tudja, tanítja... Hm... igazgatónak talán még jó lennék. :)

8-ból 7 clusteren működik, hogy a készítéskor inaktiváltam (az LV-ket és NEM VG-t) és az rgmanager pedig szépen aktiválja amikor kell.
próbáltam loggolni az lvm_by_lv.sh de úgy láttam, hogy semmi nem hívja meg azt a részt ahol az aktiválásnak megkéne történnie.
egyébként ez az lvm_by_lv.sh egy függvényekkel telerakott script. Valaminek (tippem szerint az rgmanagernek) megkéne hívnia, de nem teszi.
A többi cluster már éles, szóval ott nem tesztegethetek sajnos...
--
A legértékesebb idő a pillanat amelyben élsz.
http://phoenix-art.hanzo.hu/
https://sites.google.com/site/jupiter2005ster/

a clvmd meg minden beállítás után csináltál új initrd-t? Nem panaszkodik a logban rá, hogy kellene?

pillanat, volt egy kernel crash és újratelepítettem a kernel a default RPM-ből. Ez lehet gond? Egyébként tényleg kell új initrd? Eddig sehol soha nem kérdezte, lehete hogy csak "elrejtette" és automatikusan csinálta.
--
A legértékesebb idő a pillanat amelyben élsz.
http://phoenix-art.hanzo.hu/
https://sites.google.com/site/jupiter2005ster/

Ahelyett, hogy mindenféle ráolvasásokkal próbálkozol és rázod a sámándobot, megnézhetnéd egy rg_test-tel, hogy mit próbál csinálni, és miért nem hajlandó arra, amit szeretnél...

# rg_test noop /etc/cluster/cluster.conf start service smtp-dns
Running in test mode.
Loading resource rule from /usr/share/cluster/samba.sh
Loading resource rule from /usr/share/cluster/script.sh
Loading resource rule from /usr/share/cluster/postgres-8.sh
Loading resource rule from /usr/share/cluster/lvm_by_vg.sh
Loading resource rule from /usr/share/cluster/vm.sh
Loading resource rule from /usr/share/cluster/nfsclient.sh
Loading resource rule from /usr/share/cluster/SAPDatabase
Loading resource rule from /usr/share/cluster/apache.sh
Loading resource rule from /usr/share/cluster/oralistener.sh
Loading resource rule from /usr/share/cluster/svclib_nfslock
Loading resource rule from /usr/share/cluster/lvm_by_lv.sh
Loading resource rule from /usr/share/cluster/ip.sh
Loading resource rule from /usr/share/cluster/openldap.sh
Loading resource rule from /usr/share/cluster/checkquorum
Loading resource rule from /usr/share/cluster/ASEHAagent.sh
Loading resource rule from /usr/share/cluster/clusterfs.sh
Loading resource rule from /usr/share/cluster/netfs.sh
Loading resource rule from /usr/share/cluster/orainstance.sh
Loading resource rule from /usr/share/cluster/nfsserver.sh
Loading resource rule from /usr/share/cluster/mysql.sh
Loading resource rule from /usr/share/cluster/fence_scsi_check.pl
Loading resource rule from /usr/share/cluster/named.sh
Loading resource rule from /usr/share/cluster/fs.sh
Loading resource rule from /usr/share/cluster/tomcat-6.sh
Loading resource rule from /usr/share/cluster/lvm.sh
Loading resource rule from /usr/share/cluster/nfsexport.sh
Loading resource rule from /usr/share/cluster/SAPInstance
Loading resource rule from /usr/share/cluster/service.sh
Loading resource rule from /usr/share/cluster/oracledb.sh
Loading resource rule from /usr/share/cluster/ocf-shellfuncs
Starting smtp-dns...
[start] service:smtp-dns
[start] fs:fs_named
[start] fs:fs_smtp
[start] ip:
[start] script:relabel
[start] script:named
[start] script:HApostfix
Start of smtp-dns complete

hát ettől nem lettem okosabb. szépen ott szerepel, hogy megkéne próbálnia az fs-t indítani, de nem teszi.
--
A legértékesebb idő a pillanat amelyben élsz.
http://phoenix-art.hanzo.hu/
https://sites.google.com/site/jupiter2005ster/

# rg_test test /etc/cluster/cluster.conf start service smtp-dns
Running in test mode.
Loading resource rule from /usr/share/cluster/samba.sh
Loading resource rule from /usr/share/cluster/script.sh
......
Starting smtp-dns...
start_filesystem: Could not match /dev/vg_clusvcs/lv_named with a real device
[fs] start_filesystem: Could not match /dev/vg_clusvcs/lv_named with a real device
start_filesystem: Could not match /dev/vg_clusvcs/lv_named with a real device
[fs] start_filesystem: Could not match /dev/vg_clusvcs/lv_named with a real device
start_filesystem: Could not match /dev/vg_clusvcs/lv_named with a real device
[fs] start_filesystem: Could not match /dev/vg_clusvcs/lv_named with a real device
Failed to start smtp-dns

nos ezt eddig is tudtam. mivel inaktivaltam, most nem latszodik, de miert nem aktivalja GRRRR.....
--
A legértékesebb idő a pillanat amelyben élsz.
http://phoenix-art.hanzo.hu/
https://sites.google.com/site/jupiter2005ster/

aham.
folyton így telepítek:
lvchange -an vg_clusvcs/lv_squid
lvchange -an vg_clusvcs/lv_httpd
lvchange -an vg_clusvcs/lv_named
lvchange -an vg_clusvcs/lv_smtp

majd clvmd start

végül rgmanager start (persze ekkor már tartalmazza a megfelelő serviceket).
és itt az rgmanager a node1 csak azt aktiválja amit kell és nem az összess cuccot. az igaz, hogy a clvmd start mindent aktivál de ezt az rgmanagernek felül kéne bírálnia.
--
A legértékesebb idő a pillanat amelyben élsz.
http://phoenix-art.hanzo.hu/
https://sites.google.com/site/jupiter2005ster/

Hatooo, ez nagyon nem igy van. Ahogy fent irtam, az rgmanager nem nyul a clusterezett VG-khez, azokat a clvmd aktivalja. Amikor tehat fent deaktivalod kezzel, majd elinditod a clvmd-t, akkor reaktivalodnak. Ezutan jon csak az rgmanager. Szepen is neznenk ki, ha felulbiralna a clvmd-t.

--
L

Meg valami: ha megnezed az lvm_by_lv.sh-ben szereplo lvchange-et, akkor lathatod, hogy -aey opciokkal hivodna meg - "e", mint exclusive. Ha az LV mar aktiv egy masik node-on, akkor ez szepen elhasal.

Nezd meg, hogy a "mukodo" clustereken a VG-k/LV-k vajon clusteresek vagy sem.

--
L

igen megnéztem és clusteres mindenhol. ott a c betű a vgs kimenetében, továbbá a lvm_by_lv.sh is olvastam és tudom hogy -aey AKTIVÁLNÁ de NEM teszi. Csak annyi történik hogy függetlenül a másik node-től aktivál mindent -aly és pont ez a baj. Ez miatt aktív az összes lvm mind a két node-on.

próbáltam megadni az lvm.conf-ban hogy mi aktivállódjon automatikusan de az nem járható út, amiatt amit te is mondtál, hogy az rgmanager nem bírálja felül a clvmd-t.

de legalább most már megvan hogy a clvmd mókol el valamit.

már azt is próbáltam hogy ki/be kapcsoltam a clustert, egyszerre mind a két node-t de ez sem vezetett eredményre.

--
A legértékesebb idő a pillanat amelyben élsz.
http://phoenix-art.hanzo.hu/
https://sites.google.com/site/jupiter2005ster/