comment vérifier le parallélisme


Réponse 1:

Si vous souhaitez vérifier la valeur par défaut du parallélisme dans votre cluster, utilisez sc.defaultParallelism dans votre shell Spark.

scala> sc.defaultParallelismres3: Int = 2

Dans mon cluster, la valeur de parallélisme par défaut est 2.

Dans Spark Shell, nous pouvons réaliser le parallélisme en ajoutant la valeur 10 à sc.textFile (), ce qui signifie que le fichier a un nombre de partitions égal à 10.

scala> sc.textFile ("/ user / praveen / HackerRank-Developer-Survey-2018-Values.csv", 10)

Important:

Pour maximiser le parallélisme, la valeur du nombre de partitions doit être de deux à trois fois le nombre de cœurs présents dans votre cluster.

coalesce (numOfPartitions):

Réduisez le nombre de partitions à l'aide d'une méthode RDD appelée coalesce (numOfPartitions), où numOfPartitions est le nombre final de partitions.

répartition (numOfPartitions):

Si vos données doivent être remaniées sur le réseau, utilisez la méthode RDD appelée repartition (numOfPartitions), où numOfPartitions est le nombre final de partitions.

Lisez mon article sur

Techniques de parallélisme dans Apache Spark

J'espère que cela t'aides. Bon apprentissage.

Suivez-moi à Jose Praveen pour obtenir mes prochains flux.


Réponse 2:

Vous devriez avoir une propriété dans le fichier de configuration de votre cluster appelée «spark.default.parallelism». La valeur maximale de ce qui peut être configuré est la somme de tous les cœurs sur toutes les machines du cluster.