comment être un bon gros


Réponse 1:

Je vous recommande de comprendre d'abord le Big Data et les défis associés au Big Data. Ainsi, vous pouvez comprendre comment Hadoop est apparu comme une solution à ces problèmes de Big Data.

Ensuite, vous devez comprendre comment l'architecture Hadoop fonctionne par rapport à HDFS, YARN et MapReduce. Après cela, vous devez installer Hadoop sur votre système afin de pouvoir commencer à travailler avec Hadoop. Cela vous aidera à comprendre les aspects pratiques en détail.

Continuez à avancer, plongez-vous dans

Écosystème Hadoop

et apprenez divers outils dans Hadoop Ecosystem avec leurs fonctionnalités. Ainsi, vous apprendrez à créer une solution sur mesure en fonction de vos besoins.

Qu'est-ce que le Big Data?

Le Big Data est un terme utilisé pour désigner une collection d'ensembles de données volumineux et complexes, difficiles à stocker et à traiter à l'aide des outils de gestion de base de données disponibles ou des applications de traitement de données traditionnelles. Le défi comprend la capture, la conservation, le stockage, la recherche, le partage, le transfert, l'analyse et la visualisation de ces données.

Il est caractérisé par 5 V.

VOLUME: Le volume fait référence à la «quantité de données», qui augmente de jour en jour à un rythme très rapide.

VELOCITE: La vitesse est définie comme le rythme auquel différentes sources génèrent les données chaque jour. Ce flux de données est massif et continu.

VARIÉTÉ: Comme il existe de nombreuses sources qui contribuent au Big Data, le type de données qu'elles génèrent est différent. Il peut être structuré, semi-structuré ou non structuré.

VALEUR: C'est bien beau d'avoir accès au big data, mais à moins que nous ne puissions en faire de la valeur, cela ne sert à rien. Trouvez des informations sur les données et profitez-en.

VÉRACITÉ: La véracité fait référence aux données douteuses ou incertaines des données disponibles en raison de l'incohérence et du caractère incomplet des données.

Qu'est-ce que Hadoop et son architecture?

Les principaux composants de HDFS sont NameNode et DataNode.

NomNœud

C'est le démon maître qui maintient

et gère les DataNodes (nœuds esclaves). Il enregistre les métadonnées de tous les fichiers stockés dans le cluster, par exemple l'emplacement des blocs stockés, la taille des fichiers, les autorisations, la hiérarchie, etc. Il enregistre chaque modification apportée aux métadonnées du système de fichiers.

Par exemple, si un fichier est supprimé dans HDFS, le NameNode l'enregistrera immédiatement dans EditLog. Il reçoit régulièrement un Heartbeat et un rapport de blocage de tous les DataNodes du cluster pour s'assurer que les DataNodes sont actifs. Il garde un enregistrement de tous les blocs dans HDFS et dans quels nœuds ces blocs sont stockés.

DataNode

Ce sont des démons esclaves qui s'exécutent sur chaque machine esclave. Les données réelles sont stockées sur DataNodes. Ils sont chargés de traiter les demandes de lecture et d'écriture des clients. Ils sont également chargés de créer des blocs, de supprimer des blocs et de les répliquer en fonction des décisions prises par le NameNode.

Pour le traitement, nous utilisons YARN (Yet Another Resource Negotiator). Les composants de YARN sont ResourceManager et NodeManager.

Gestionnaire de ressources

Il s'agit d'un composant de niveau cluster (un pour chaque cluster) et s'exécute sur la machine maître. Il gère les ressources et planifie les applications s'exécutant sur YARN.

NodeManager

Il s'agit d'un composant au niveau du nœud (un sur chaque nœud) et s'exécute sur chaque machine esclave. Il est responsable de la gestion des conteneurs et de la surveillance de l'utilisation des ressources dans chaque conteneur. Il assure également le suivi de la santé des nœuds et de la gestion des journaux. Il communique en permanence avec ResourceManager pour rester à jour.

Vous pouvez effectuer un traitement parallèle sur HDFS à l'aide de MapReduce.

MapReduce

C'est le composant central du traitement dans un écosystème Hadoop car il fournit la logique du traitement. En d'autres termes, MapReduce est un framework logiciel qui aide à écrire des applications qui traitent de grands ensembles de données à l'aide d'algorithmes distribués et parallèles dans l'environnement Hadoop. Dans un programme MapReduce, Map () et Reduce () sont deux fonctions. La fonction Carte effectue des actions telles que le filtrage, le regroupement et le tri. La fonction de réduction agrège et résume le résultat produit par la fonction de carte. Le résultat généré par la fonction Map est une paire valeur / clé (K, V) qui sert d'entrée pour la fonction Réduire.

Vous pouvez parcourir cette vidéo pour comprendre Hadoop et son architecture en détail.

Installez Hadoop

Nœud unique

et

Cluster multi-nœuds

Alors tu peux passer par ça

Blog sur l'écosystème Hadoop

pour apprendre en détail l'écosystème Hadoop.

Vous pouvez également parcourir cette vidéo didactique sur l'écosystème Hadoop.

Étincelle

Apache Spark est un framework pour l'analyse de données en temps réel dans un environnement informatique distribué. Le Spark est écrit en Scala et a été développé à l'origine à l'Université de Californie à Berkeley. Il exécute des calculs en mémoire pour augmenter la vitesse de traitement des données sur Map-Reduce. Il est 100 fois plus rapide que Hadoop pour le traitement de données à grande échelle en exploitant les calculs en mémoire et d'autres optimisations. Par conséquent, il nécessite une puissance de traitement élevée par rapport à Map-Reduce.

Comme vous pouvez le voir, Spark est livré avec des bibliothèques de haut niveau, y compris la prise en charge de R, SQL, Python, Scala, Java, etc. Ces bibliothèques standard augmentent les intégrations transparentes dans des flux de travail complexes. Sur ce, il permet également à divers ensembles de services de s'intégrer avec lui, tels que MLlib, GraphX, SQL + Data Frames, services de streaming, etc. pour augmenter ses capacités.

Vous pouvez également parcourir cette vidéo de questions d'entrevue Hadoop pour avoir une idée des questions posées lors d'une interview Hadoop.

Edureka fournit une bonne liste de vidéos du didacticiel Hadoop. Je vous recommanderais de passer par ça

Liste de lecture vidéo du didacticiel Hadoop

aussi bien que

Série de blogs sur le didacticiel Hadoop

. Votre apprentissage doit être aligné sur

Certification Hadoop

.


Réponse 2:

Sa question ouverte avec réponse ouverte.

Tout d'abord, cela dépend du dévouement que vous devez apprendre et pratiquer hadoop.

Hadoop est une nouvelle technologie donc pas beaucoup d'aide disponible en ligne si vous êtes bloqué à tout moment.

Maintenant, je suppose que vous avez un dévouement, alors je vais en venir au fait.

Comprenez d'abord comment fonctionne le framework hadoop. En cela, vous devez apprendre comment fonctionne le composant de base de hadoop ie HDFS et Map-Reduce.

Comme nous apprenons le c et le c ++ avant d'apprendre java, .net, etc., hadoop est la base de nombreux frameworks nouveaux et populaires comme apache spark, apache storm, etc.

Lisez 'hadoop definitive guide' son meilleur livre que j'ai lu jusqu'à présent.

Une fois que vous vous êtes familiarisé avec hadoop et que vous vous sentez peu confiant, téléchargez la machine virtuelle (CDH) à partir du site clodera. Il contient une configuration hadoop sur laquelle vous pouvez vous entraîner.

Si vous avez des antécédents en programmation, pratiquez des programmes de réduction de carte que vous pouvez facilement trouver en ligne. Si vous n'êtes pas très familier avec la programmation, commencez par apache Pig puis apache sqoop puis apache hive puis apache hue puis apache oozie.

À présent, vous serez très confiant avec hadoop et son écosystème.

Commencez maintenant par des projets de démonstration. Vous obtiendrez de nombreux exemples de jeux de données en ligne.

Sur

Formation en ligne, cours de certification des entreprises en technologie des TI - acadgild.com | AcadGild

vous pouvez trouver de nombreux projets de démonstration pour la pratique.

Pensez grand .. Pensez Big Data .. !!


Réponse 3:

Je crois que tout se résume à la mise en œuvre de la bonne méthodologie et des outils appropriés pour chaque ensemble de données / problème que vous résolvez. Vue de dessus, bonne compréhension de:

  • Ingestion - comment et quelle est la manière optimale d'ingérer des données de différentes sources dans HDFS / HBase / NoSQL?. Compréhension plus approfondie de la manière dont les données ingérées seront consommées par l'aval
  • Transformation - quel outil utiliser et comment mettre en œuvre: traitement en mémoire ou par lots
  • Sortie - outil de requête ou de visualisation le plus probable. Comment interfacer au mieux: requête soumise ou requête d'extraction (transfert de données)

Réponse 4:

Référez-vous à cet événement et obtenez toutes vos réponses liées à BigData / Hadoop, tout à fait gratuitement

Le marché britannique des cours en ligne et de la formation informatique

en train d'aller

pour organiser un événement en ligne pour Introduction au Big Dat & Hadoop

. La meilleure partie est que c'est

complétement gratuit!

. Il vise à

bénéficiant aux novices et aux débutants

qui cherchent à se bâtir une carrière dans ce domaine.

Il y aura une explication détaillée sur le Big Data et les solutions actuelles pour gérer d'énormes données et bases de données

Vous serez ensuite exposé au Hadoop et à ses outils et techniques comme Sqoop, Oozie, pig, ruche, HBase, Cassandra. Cet événement comprendra également un aperçu des services Web d'Amazon (cloud) et bien plus encore.

Dans l'ensemble, ce sera comme un cours intensif sur Hadoop et Big Data qui vous aidera dans vos décisions importantes dans la vie.

Ne manquez pas cette opportunité en or qui ne demande que votre temps et rien d'autre

Calendrier des événements:

Sam 14 janvier 2017

11h00 - 12h00 GMT

Liens vers l'événement:

Confirmation via Facebook

-

Introduction à la science des données

Inscription à cet événement sur EventBrite

-

https://goo.gl/il6cmo

Dans l'attente de votre participation


Réponse 5:

Continuez à pratiquer tout le concept lié à hadoop. Fork apache hadoop codebase disponible sur github et commencez à regarder les problèmes. Si possible, essayez de contribuer. Vous pouvez commencer à chercher des questions sur le stackoverflow et essayer d'y répondre si possible. Cela vous aidera définitivement à devenir un bon développeur Big Data. lien pour la base de code:

apache / hadoop

Réponse 6:

Vous trouverez peut-être vos réponses ici .....

https://acadgild.com

Pratiquer par vous-même est la meilleure façon de procéder, mais cela pourrait être difficile si vous n'êtes pas d'un domaine technique, dans cette situation, vous pouvez suivre un coaching en ligne.