nem tudok errol, de ami llm implementaciot lattam eddig az mind ugy kezelte a gpu-kat mint kulon kartyak. a tesla is ami fizikailag 1 karytan 2 gpu is 2 teljesen kulon, fuggetlen egysegkent latszik linux/cuda alatt. jo az mar regi cucc, de az nvlink se mai :)
de nincs is tul nagy jelentosege, mert az ai modelleket eleg jol lehet parhuzamositani tobb gpu-n, persze van egy 10-20% atfedes a kozos adatok miatt, de cserebe a teljes adat amin az adott gpu dolgozik a sajat gyors ramjaban van.
nagyobb problema hogy nincs megfizetheto aron sok ramos gpu, es meg a 24GB-os "gamer" kartyak is dragak. kivancsi vagyok hany evet kell meg varni mig valaki kijon egy olcso ai-ra optimalizalt kartyaval.