Projet SHAVADOOP

Introduction

Pour rappel, notre objectif est de construire un programme qui imite le fonctionnement de l’algorithme du framwork Map-Reduce. Notre souhait est d’implémenter un algorithme qui calcule un « Word Count » sur plusieurs machines, et de manière parallélisée. Pour cela nous aurons à disposition l’ensemble des machines disponibles sur le site de Télécom Paris-Tech, sur lesquelles nous pouvons nous connecter sans restriction à l’aide de la commande SSH.

Notre implémentation personnalisée de l’algorithme Map-Reduce se fera selon le modèle ci-dessous :

Cette note est accompagnée de plusieurs fichiers, d’une part le fichier zip qui contient le code source de notre programme, et d’autre part, les deux fichiers jar servant à l’utilisation du programme. Egalement vous trouverez une note plus complète au format PDF.

Comment lancer le projet

Pour lancer notre programme, nous aurons besoin des deux fichiers jar joints (master_shavadoop.jar & salve_shavadoop.jar). Le premier cité représente le code associé au Master de notre algorithme et le second au programme que nous exécuterons sur chaque machine. Lors du lancement de notre « Word Count » nous aurons seulement besoin du premier cité. Une fois les deux jar récupérés, et sauvegardés dans le même chemin, nous pouvons tenter d’exécuter le programme. Pour cela, il suffit de se rendre dans le terminal, de se placer dans le dossier où se situe nos jar et d’exécuter la commande suivante :

java –jar master_shavadoop.jar PATH INPUT.txt

Le « PATH » doit être un chemin tel que « /cal/homes/brehelin/Desktop/Sx_Folder/ », et le fichier INPUT.txt doit être le nom du fichier texte sur lequel on souhaite effectuer notre comptage tel que « forestier_mayotte.txt ».

Le « PATH » représente le répertoire de référence tout au long du processus de traitement, il est donc nécessaire que celui-ci contienne tous les éléments dont a besoin notre programme. Il est impératif que notre dossier contienne:

Le fichier source texte sur lequel nous voulons lancer notre programme
Un fichier texte qui référence l’adresse des machines sur lesquelles nous souhaitons paralléliser notre programme sous le nom « ip_adress.txt » (joint avec cette note).
Le fichier texte « pronom_list.txt » qui référence tous les pronoms et autres mots à bannir de notre « Word Count »

Après lancement du projet, on retrouvera tous nos fichiers de sortie dans ce dossier de référence.

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
.settings		.settings
Source		Source
Input.txt		Input.txt
Note_SHAVADOOP.pdf		Note_SHAVADOOP.pdf
Readme.md		Readme.md
deontologie_police_nationale.txt		deontologie_police_nationale.txt
domaine_public_fluvial.txt		domaine_public_fluvial.txt
forestier_mayotte.txt		forestier_mayotte.txt
ip_adress.txt		ip_adress.txt
master_shavadoop.jar		master_shavadoop.jar
output_deontologie_sorting.txt		output_deontologie_sorting.txt
output_domaine_fluvial_sorting.txt		output_domaine_fluvial_sorting.txt
output_forestier_moyotte_sorting.txt		output_forestier_moyotte_sorting.txt
pronom_list.txt		pronom_list.txt
salve_shavadoop.jar		salve_shavadoop.jar
source_code.zip		source_code.zip

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Projet SHAVADOOP

Introduction

Comment lancer le projet

About

Releases

Packages

Languages

beubeu13220/SHAVADOOP

Folders and files

Latest commit

History

Repository files navigation

Projet SHAVADOOP

Introduction

Comment lancer le projet

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages