Sharding dans les LLM : comment distribuer les calculs entre GPUs
Les grands réseaux de neurones nécessitent la distribution de matrices entre plusieurs accélérateurs. Cela s'appelle le sharding. La façon dont les données sont

◐ Écouter l'article
Les grands réseaux de neurones nécessitent la distribution de matrices entre plusieurs accélérateurs. Cela s'appelle le sharding. La façon dont les données sont correctement partitionnées détermine la vitesse et l'efficacité de l'entraînement des LLM.