¡Acceso ilimitado 24/7 a todos nuestros libros y vídeos! Descubra la Biblioteca Online ENI. Pulse aquí
¡Acceso ilimitado 24/7 a todos nuestros libros y vídeos! Descubra la Biblioteca Online ENI. Pulse aquí
  1. Libros
  2. El dato
  3. Datos en todas sus facetas
Extrait - El dato Guía de supervivencia en el mundo de los datos
Extractos del libro
El dato Guía de supervivencia en el mundo de los datos Volver a la página de compra del libro

Datos en todas sus facetas

Introducción

Antes de embarcarse en el descubrimiento de lo que se puede hacer con los datos, es importante repasar algunos conceptos obvios. Sin duda, algunos esbozarán una sonrisa al leer el título del primer capítulo. Pero si se mira más de cerca, lo que puede parecer obvio no lo es necesariamente cuando se profundiza un poco más en el tema. Así que hagamos el esfuerzo de exponer lo básico, y consideremos juntos las siguientes preguntas:

  • ¿Qué son los datos?

  • ¿Cómo se describen a sí mismos?

  • ¿Cómo se utilizan?

  • ¿Cómo se controlan?

¿Qué son los datos?

Lo primero que hacemos instintivamente es abrir el navegador e ir a Wikipedia.

A continuación, se muestra la definición de datos:

Dato (en pluraldatos) es cualquier secuencia de uno o más símbolos a los que se les da significado mediante actos específicos de interpretación.

Los datos son un tipo de hecho, una observación, algo concreto. Pero también suele ser un hecho en bruto. Hay una diferencia entre datos e información. Los datos son un punto de partida, mientras que la información suele ser lo que esperamos obtener de ellos, es decir, un resultado que se puede utilizar de alguna manera. Utilizando una metáfora, los datos son carbón y la información es un diamante.

Por desgracia, pasar de los datos a la información requiere trabajo. Este libro explica cómo conseguirlo.

Por tanto, los datos se pueden organizar, formatear, teclear o simplemente percibir de diversas maneras en función de su estado o contexto y, por qué no, también de la forma en que se recuperan. Si se examinan más de cerca, realmente hay muchos calificativos que pueden definir las múltiples características de un dato.

images/cap1_pag2.png

Cartografía de las características de los datos

Cuando se hace este ejercicio de mapeo en torno a las distintas características de los datos, lo que salta inmediatamente a la vista...

Propiedades físicas

1. El tipo

Probablemente sea lo primero en lo que uno piensa cuando recupera datos. De hecho, si se hiciera una encuesta entre desarrolladores, es casi seguro que sería lo primero que se les vendría a la cabeza. ¿Qué es un tipo de datos? La definición de Wikipedia es bastante general:

En programación informática, un tipo de datos, o simplemente un tipo, define la naturaleza de los valores que pueden tomar los datos, así como los operadores que se les pueden aplicar.

Un tipo se puede considerar una categoría estructural de datos. A continuación, se muestran algunos ejemplos de tipos, pero la lista no es exhaustiva: numérico, texto, fecha, monetario, booleano, etc. serían los más conocidos. Por supuesto, si nos fijamos en los soportes que almacenan los datos (como las bases de datos o incluso los lenguajes de programación), encontraremos aún más variaciones de estos tipos básicos. El tipo de datos también define el espacio de almacenamiento necesario para los datos.

a. Bits y bytes

La realidad es que puede crear tantos tipos de datos como quiera, sencillamente porque todos los tipos de datos no son más que extensiones de un único tipo básico: binario.

La información binaria tiene dos únicas posibilidades o valores: cero (0) o uno (1).

[0,1] -> 2 posibilidades (0 o 1)

Si le añadimos otro dígito binario al lado (visualización de 2 bits):

[0,1][0,1] -> entonces tenemos 22 o 4 posibilidades (00, 01, 11, 10)

Si le añadimos otro dígito binario al lado (visualización de 3 bits):

[0,1][0,1][0,1] -> entonces tenemos 23, es decir, 8 posibilidades (000, 010, 011, etc.)

Y así sucesivamente. Así que podemos almacenar cualquier dato en forma de secuencia de dígitos binarios, y así es exactamente como funcionan nuestros ordenadores.

En informática, también se habla de datos booleanos (en referencia al álgebra de Boole). En general, estos datos tienen la forma 0 o 1, pero también se pueden encontrar en otra forma (categórica), como por ejemplo Sí o No.

b. Números enteros

Nada más sencillo que almacenar números enteros: basta con disponer de espacio suficiente (bits) para prever el mayor número entero que se vaya a gestionar.

De hecho...

Propiedades de exposición

1. El formato

En las secciones anteriores hemos examinado los tipos de datos, y a veces incluso hemos tenido que hablar de la noción de formato, porque estas dos nociones pueden estar estrechamente vinculadas. Veamos ahora cómo, para un mismo tipo de datos, podemos distinguir entre varios formatos. Aquí es importante señalar que un mismo dato puede tener varios formatos o disposiciones posibles (es el caso típico de la fecha). Incluso es posible que la manera de dar formato a un dato influya en el valor del propio dato (como veremos en breve con las fechas, por ejemplo). En cierto modo, es importante recordar que hay varias formas de presentar los datos. Todas ellas pueden ser correctas desde el punto de vista sintáctico, pero quizá no desde el punto de vista del significado de los propios datos. Por lo tanto, es importante conocer el formato o formatos correctos que hay que utilizar para poder explotar correctamente estos datos. El formato o formatos son, por tanto, información importante (metadatos) sobre los datos.

a. Fecha

El ejemplo más frecuente de confusión entre tipo y formato es cuando hay que gestionar datos relativos a fechas.

Imagine que recupera datos de fecha como los siguientes: 12/01/2021

  • ¿Es el 12 de enero de 2021? (formato europeo)

  • ¿O el 1 de diciembre de 2021? (formato americano)

No todos los países muestran (y, por tanto, eventualmente almacenan) los datos de fecha de la misma manera. En algunos casos, se invertirán el día y el mes (como en nuestro ejemplo), en otros se utilizarán guiones en lugar de barras, también habrá formatos en los que el mes se abrevie utilizando tres caracteres (2 ene 2021), etc.

Aparte del almacenamiento de datos, otro problema es el formato de la fecha. No vamos a entrar aquí a tratar todos los métodos de codificación, pero es imposible no mencionar la norma ISO 8601. Esta norma exige que la fecha y la hora se representen utilizando el calendario gregoriano y el sistema horario de 24 horas.

Ejemplo: 1979-02-03T13:00:00-08:00 corresponde al 3 de febrero a las 13:00 horas.

Por ello, esta norma utiliza el formato de fecha AAAA-MM-DD (con guiones), que resulta especialmente interesante y práctico cuando este tipo de datos se recupera en formato de texto para facilitar su clasificación.

b. Los números

Otro problema...

Propiedades estructurales

1. Granularidad

¿Qué nivel de granularidad tienen los datos? Un documento (como una factura), una lista de productos, un simple importe (IVA incluido) o una pila de documentos son datos. Pero para clasificar los datos, primero tenemos que conocer su profundidad y alcance.

Cuando se quiere trabajar con datos, ya sea para analizarlos o procesarlos (validación de facturas, lanzamiento de formularios de pedido, anulación, creación de cuentas, etc.), es vital disponer de los datos con la profundidad que se necesite. Tomando el ejemplo de una factura, es importante saber si el importe comunicado es el importe de la factura o el importe de uno de sus artículos. Por lo tanto, el primer paso es determinar la granularidad de los datos, al menos para saber qué pasos de transformación serán necesarios más adelante para lograr el resultado deseado (si es necesario, por supuesto).

En términos de granularidad, encontramos el concepto de contenedor-contenido, de "macrodatos" o "microdatos" en el sentido de que los datos pueden encapsular otros datos más finos.

Por desgracia, no siempre conocemos la granularidad de nuestros datos, y a veces incluso tenemos que averiguarla por nosotros mismos mediante un análisis estructural profundo de los datos (también conocido como Data Profiling). En todos los casos, es importante, incluso vital, hacerse preguntas sobre la granularidad de los datos que estamos tratando.

Imaginemos, por ejemplo, que tenemos este tipo de conjunto de datos:

 

Columna 1

Columna 2

Columna 3

Línea 1

120,2

BC 1

Validado

Línea 2

78

BC 1

En espera

Línea 3

458,04

BC 2

No validado

¿Cuál es la granularidad de este conjunto de datos?

  • Lista de facturas por mes, año, etc.

  • Formularios de pedido por región, país, ciudad, etc.

  • Pongamos un ejemplo mucho más sencillo. Imaginemos por un momento que trabaja en un departamento de facturación. Es obvio que no va a gestionar igual la factura del proveedor XXX que todas las facturas del 12 de enero de 2023 (que incluyen todas las facturas de todos los proveedores de ese día).

images/cap1_pag36.png

Granularidad de la factura

La verdadera pregunta que hay que hacerse aquí es en qué nivel se encuentran los datos que tenemos. También es interesante determinar si nuestros datos contienen otros (datos...

Propiedades funcionales

1. El contexto

El contexto es quizá la característica más importante, ya que permite explicar y situar adecuadamente los datos en un marco funcional o de uso específico. Por desgracia, también suele ser la más compleja de definir. El valor de un dato, que es lo que lo hace utilizable, está inevitablemente ligado a su contexto. Y este contexto, por desgracia, no es cuantificable. A veces incluso es bastante abstracto, porque se puede explicar y entender en función de un entorno funcional específico. Forma parte integrante de la definición de los datos (o al menos del supuesto significado) y tiene una gran influencia en lo que representan de manera concreta.

Ejemplos

  • Contexto espacial: ¿Cómo se puede utilizar correctamente un valor de una propiedad inmobiliaria sin la localidad?

  • Contexto temporal: ¿qué se puede hacer con una cifra de negocio si no se sabe cuánto va a durar ni la fecha?

Esto implica que un dato tiene un valor según su contexto y, por tanto, puede no ser válido fuera de ese contexto. Por ejemplo, es el caso de una fecha de caducidad. Se habla entonces de la frescura de los datos en el contexto de los datos que se pueden alterar con el tiempo. En general, los datos se definen en relación con uno o varios contextos y es responsabilidad de los usuarios (productores y/o consumidores) definir la calidad de estos datos, en relación con el contexto en cuestión. El contexto de un dato también se puede definir por referencia a otros datos, como suele ser el caso de una descripción organizativa (cadena de responsabilidad, filiación, etc.).

Tenga en cuenta que el contexto puede ser de varios tipos, como en los ejemplos anteriores, pero también...

Vocabulario de datos

Nuestros datos se definen sobre todo por la manera en que los utilizamos. En los capítulos siguientes veremos que estos datos son una mina de oro y que podemos hacer con ellos casi todo lo que queramos. Pero antes de abordar estos diferentes usos, y para cerrar este capítulo, es importante precisar algunos elementos del lenguaje que se encuentran cada vez más en la literatura.

Estas terminologías son muy relativas y dependen totalmente del contexto en el que se utilicen los datos.

Datos calientes

Esta imagen de datos calientes se refiere a los datos que se acaban de recuperar de un sistema y que van a utilizarse muy rápidamente por otro u otros sistemas. Se trata de datos que, de hecho, se utilizan mucho en el sistema de información, pero que tienen el inconveniente de ser muy volátiles.

Ejemplo: información sobre existencias de productos en un sistema ERP.

Datos de intención

Los datos de intención son datos calientes que se deben utilizar muy rápidamente, ya que de lo contrario quedarán obsoletos o desfasados (e incluso darán un resultado falso).

Ejemplo: datos sobre el comportamiento de un comprador que navega por Internet -> intención de compra.

Datos fríos

Los datos fríos son datos estables (es decir, que no cambiarán o apenas lo harán). A diferencia de los datos calientes, los datos fríos siguen siendo válidos...