Skip to content

Latest commit

 

History

History
100 lines (68 loc) · 14.1 KB

index.md

File metadata and controls

100 lines (68 loc) · 14.1 KB

Bases de Datos No-Relacionales para Ciencia de Datos

Este website contiene el material para la materia Bases de Datos No Relacionales (o NoSQL para brevedad) para Ciencia de Datos.

Qué vamos a ver en esta materia?

Las BDs relacionales no son suficientes para contar toda la historia de un evento o de un objeto de negocio, de una orden, de un cliente, o de un envío. Frecuentemente la huella está dispersa en transacciones de una base de datos, visitas a unas páginas web, audios de atención a cliente, geolocalizaciones a lo largo de una ruta, texto libre en comentarios, grafos de redes sociales, y datos en memoria de los sistemas involucrados. Necesitamos saber interactuar con dichas bases de datos, y sobre todo, necesitamos poder consolidarlas en un repositorio central para lograr hacer analítica de todas las partes de la historia, sin dejar fuera ninguna fuente con la que corramos peligro de "quedar ciegos". En esta materia veremos como interactuar con dichas BDs no-relacionales (NoSQL = Not only SQL), y como construir dicho repositorio central.

En una frase, esta materia trata de consolidación de datos para contar una historia completa.

Rules of the game

Qué texto vamos a usar?

  1. Seven databases in Seven Weeks
  2. Learning Spark
  3. Apuntes de miguelito

Cómo vamos a calificar?

  1. 1er y único parcial individual: 60%
  2. 1er avance proyecto final: 20%
  3. 2o y último avance proyecto final: 20%

Cómo serán los exámenes?

Tendrán un componente teórico y/o un componente práctico.

El componente práctico consistirá generalmente en uno de a) crear o alterar una BD, b) diseñar una BD, c) generar datos en una BD con una cierta forma, o d)  generar un reporte analítico.

El componente teórico es un examen de opción múltiplemen la plataforma Socrative en el cual podrás sacar apuntes o usar una o varias de las plataformas que configuraremos a lo largo del semestre (PostgreSQL, DBeaver, VSCode, Anaconda, etc).

Y cómo será el examen final?

Será enteramente práctico y consistirá en el desarrollo de un proyecto integral con todo lo visto en el semestre. Daremos más detalles más adelante durante el curso.

Cómo me contacto con ud, prof?

Usen el el correo institucional ([email protected]) o Slack.

Pero preferentemente usen Slack.

Cómo nos comunicaremos?

Por Slack. Abajo las ligas de descarga:

Una vez que descarguen Slack, hagan click en esta liga para que sean automágicamente agregados a nuestro workspace.

Por dónde serán las sesiones?

Viernes de 8AM a 11AM.

La sesión 1 será por Zoom, en este link, y solo durará de 8 a 10.

A partir de la 2a sesión estaremos presenciales en el salón RHCC302 de 8 a 11.

Dónde estará el material?

Aquí en Github. Es importante que si nunca has usado Github, o algún otro sistema de control de versiones, leas esta guía para que no te agarren en curva y tengas de menos los fundamentos de estas plataformas.

Qué necesito para la clase?

  1. Document - MongoDB - Download
  2. Graph - Neo4J - Download
  3. Wide column - MonetDB - Download
  4. Data lake - AWS Lake Formation - Download
  5. Cuenta de AWS - Suministrada por mi

Solamente eso?

Dependiendo de como vengan de experiencia y las materias previas que hayan cursado, necesitarán:

  1. VSCode - Download
  2. Python (mediante miniconda) - Download

NEWS & UPDATES

Check back here often.

Temario + Fechas = Plan de Materia

A continuación el temario, fecha por fecha:

Fecha de sesión Temas
2022/01/28 Por qué es importante que conozcan el mundo laboral desde ahorita? (apunte). Intro / 2-speed IT (apunte/video)
2022/02/04 2-speed IT / Data Warehouse VS Data Lake (apunte/video)
2022/02/11 BDs analíticas VS BDs transaccionales / BDs columnares VS BDs relacionales (apunte/video)
2022/02/18 Intro a Cloud Computing y creación de una máquina virtual en AWS / video. Uso de AWS Academy. Creación de máquinas virtuales en EC2 dentro de AWS Academy. Instalación de Neo4j. / video
2022/02/25 Instalación de MongoDB y accesorios / video. Funciones insert y find en MongoDB / video
2022/03/04 Aggregations, pipelines, grouping / video
2022/03/11 API Legislativo, MongoDB y nuestro 1er ETL / video
2022/03/18 Ejercicios / video
2022/03/25 Intro a BDs Columnares / video. Instalación de MonetDB / video
2022/04/01 Comparativa de desempeño EN VIVO entre PostgreSQL y MonetDB con base de datos de Ecobici / video
2022/04/08 Construcción de un Data Warehouse Histórico en MonetDB y migración de datos desde PostgreSQL / video.
2022/04/15 ASUETO
2022/04/22 Conexión a Neo4j. Carga de BD Northwind a Neo4j. Similitudes y diferencias entre Neo4j y SQL. Intro al lenguaje Cypher. / video. 1ER PARCIAL.
2022/04/29 Ejercicios de queries con Cypher a la BD Northwind. Intro a Proyecto Final. / video. Ejercicios de queries con Cypher a la BD Northwind II. Carga de los Pandora Papers. Análisis avanzado de grafos: centralidad y similitud. Grafos para law enforcement / video
2022/05/06 Seminario de industria con speaker invitado
2022/05/13 1a Presentación Proyecto Final
2022/05/20 Creación y operación de un Data Lake con AWS / video