Tutos Apache Zeppelin

1. Objectif

Ce pas à pas a pour but d’expliquer comment installer et paramétrer Apache Zeppelin simplement et facilement sur sa machine, pour un usage personnel. Ce pas à pas présentera l’installation et le paramétrage de Apache Zeppelin sous MacOS, mais si vous êtes sous Linux les étapes et leurs applications sont les mêmes. Sous Windows, la réalisation de certaines étapes diffèrent légèrement mais restent reproductibles facilement. 

2. Prérequis

  • Avoir une connexion internet.
  • De préférence avoir Spark ainsi que Java 8 installés sur la machine sur laquelle Apache Zeppelin sera installé.

3.Etapes de mise en place

3.1 Récupération des fichiers Zeppelin

  1. Tout d’abord, nous allons télécharger le package Apache Zeppelin depuis le site officiel https://zeppelin.apache.org/. Depuis cette page, on clique sur Download et on accède à la page représentée par l’image ci-dessous. Différents package sont téléchargeables, mais pour cet exemple nous allons nous concentrer sur l’installation de Zeppelin depuis le binary package avec tous les interpréteurs. On clique donc sur le bouton correspondant (cadre orange).


    apache zeppelin 1
  2. Le package téléchargé, il faut maintenant extraire les fichiers. Pour cela, dans un terminal et dans le répertoire contenant le package téléchargé, nous exécutons la commande suivante :
    tar -xzvf zeppelin-0.9.0-bin-all.tgz
    “zeppelin-0.9.0-bin-all.tgz” est le nom du package que nous venons de télécharger. En fonction de la version, celui-ci peut changer. 

Après l’extraction, nous avons un dossier “zeppelin-0.9.0-bin-all” créé dans le répertoire, comme sur l’image ci-dessous :

apache zeppelin 2

 

3.2 Exécuter Apache Zeppelin

  1. Maintenant que les fichiers Zeppelin sont téléchargés et extraits, nous pouvons lancer Zeppelin sur la machine. Pour cela, nous exécutons la commande “bin/zeppelin-daemon.sh start” (en étant dans le répertoire “zeppelin-0.9.0-bin-all”).
    L’instance de Zeppelin est lancée et on peut y accéder depuis un navigateur web, à l’adresse “localhost:8080”. On arrive sur la page suivante :visuel 3 
  2. Enfin, on peut arrêter Zeppelin avec la commande “bin/zeppelin-daemon.sh stop”

3.3 Paramétrage d’Apache Zeppelin

 

  1. Maintenant, nous pouvons également effectuer quelques paramétrages de l’instance Zeppelin. Dans le répertoire “zeppelin-0.9.0-bin-all/conf/” on retrouve divers fichiers de configuration de Zeppelin. Ceux qui nous intéressent sont ceux avec l’extension “.template”. Ils sont à copier et modifier en fonction des différents paramètres que l’on souhaite mettre en place sur notre installation Zeppelin. L’image ci-dessous montre comment copier un fichier avec l’extension “.template” :

    visuel 4
  2. Après ces opérations, vous devriez avoir un répertoire conf similaire à l’image suivante :

apache zeppelin 5

3.4 Spécifier une configuration Spark

 

  1. De base, Zeppelin utilise les librairies Spark embarquées. Nous pouvons par exemple utiliser une version de Spark spécifique déjà installée sur la machine (cela est même conseillé). Pour cela, il faut modifier le fichier “zeppelin-env.sh”. En étant dans le dossier conf/, on exécute donc la commande suivante: “nano zeppelin-env.sh”.

  2. Le fichier s’ouvre dans le terminal. Il faut maintenant y spécifier le chemin de l’installation Spark de la machine, ainsi que le chemin d’installation de Java. L’image ci-dessous donne un exemple.

apache zeppelin 6

3.5 Mettre en place l’authentification sur Zeppelin

 

  1. Actuellement, l’utilisateur est anonyme. Il est possible de mettre en place une authentification, avec identifiant et mot de passe pour chaque utilisateur. Pour cela, on va commencer par copier le fichier “shiro.ini.template” du dossier conf/ en “shiro.ini”, comme sur l’image ci-dessous :

apache zeppelin 7

  1. Le fichier “shiro.ini” permet de gérer la sécurité de Zeppelin. On y retrouve les identifiants et mots de passe des utilisateurs. Comme indiqué dans le fichier, il est également possible d’utiliser une autre stratégie pour le système d’authentification telle que la connexion à une base de données.
  2. Maintenant que le fichier “shiro.ini” est créé, on peut relancer l’instance Zeppelin, et nous avons maintenant l’authentification disponible et plus d’accès anonyme :


    apache zeppelin 8

Vous pourrez aussi visionner la vidéo pas à pas de ce tutoriel disponible sur notre chaîne YouTube.

 


AlexisDepuis plus de 15 ans maintenant, je travaille sur des sujets liés à la BI et à l’amélioration des processus. J’ai participé à un grand nombre de projets en tant que leader technique sur de nombreuses technologies. De nature pédagogue, je donne également des cours de langage de programmation.

N’hésitez pas à me faire un retour sur cet article ou à me contacter sur LinkedIn pour échanger sur ces sujets!

Alexis

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Abonnez-vous à notre newsletter

Saisissez votre adresse e-mail pour vous abonner à ce blog et recevoir les derniers articles publiés!