Del curso: Aprende data science: Conceptos básicos
Haz conexiones con bases de datos relacionales
Los científicos de datos trabajan de varias formas. Extraen los datos de bases de datos antiguas y de hojas de cálculo. También trabajan con imágenes y videos. Deberías familiarizarte con las formas más comunes de almacenar datos que tienen las organizaciones. La mayoría tiene un amplio abanico de opciones. Algunas son muy modernas y otras, no tanto. La mejor forma de entender estas tecnologías es desde el principio. Hasta las bases de datos más modernas se fundamentan en tecnologías con 50 años de antigüedad. Las bases de datos modernas comenzaron la misión espacial Apolo a finales de los 60. La NASA trabajó con IBM para crear un sistema de gestión de la información, o IMS. Los cohetes que lanzaban a la luna necesitaban millones de piezas, y la NASA trabajaba con estos prototipos que se parecen mucho a una hoja de cálculo moderna. Era un archivo informático con varias columnas y largas listas de filas. Una tabla con un millón de filas es difícil de gestionar. Piensa en una hoja de cálculo de un millón de filas en una pantalla en blanco y negro. IBM comercializó más tarde el IMS creado para la NASA. A mediados de los 70, desarrollaron un lenguaje de consulta estructurada, el SQL, para asistir en la búsqueda de datos de sus clientes. Al mismo tiempo se estaban creando las primeras bases de datos relacionales, que separaban los datos en grupos de tablas. cada una de estas tablas parece una hoja de cálculo, pero con menos información. Después crearon relaciones entre las tablas. En lugar de una sola lista de millones de partes, podían crear 50 tablas con 20 000 piezas cada una. Por eso se llaman bases de datos relacionales, porque se fundamentan en un grupo de tablas que se relacionan entre sí. Los primeros ingenieros se esforzaron por aprender cuál era la forma más eficiente de agrupar las tablas. Crearon mapas que mostraban las relaciones entre tablas y los llamaron esquemas. En este trabajo pionero se percibe la dificultad de crear estos esquemas. ¿Creamos una tabla para las piezas más grandes? Tal vez sea mejor una para los propulsores y otra para los tanques de combustible. El problema está en que, si cambias el diseño del cohete, tienes que cambiar el diseño de la base de datos. Las tablas se podrían crear para cada fabricante de cada pieza; el problema en este caso sería que tal vez un fabricante produce miles de piezas, mientras que otro solo produce un par de docenas. A día de hoy es un problema sin resolver. Las bases de datos relacionales necesitan su buena cantidad de diseño previo. Hace falta tener muy clara la apariencia de la información antes de empezar a recogerla. Si te equivocas, el esfuerzo para corregir el diseño es muy costoso. SQL es un lenguaje elegante que puede extraer datos de muchas tablas relacionales diferentes. Es capaz de reconectar varias tablas y presentar los datos en una tabla virtual que se llama Vista. SQL tuvo tanto éxito que todavía hoy es uno de los lenguajes más usados. Si buscas en LinkedIn, verás que es una de las habilidades más populares. Con los años, se añadieron muchas funciones a las bases de datos relacionales y se creó un sistema de gestión de bases de datos relacionales llamado RDBMS. Algunas de las empresas de software, como IBM, Microsoft y Oracle aún dan asistencia y desarrollan este tipo de sistemas de gestión.