Conceptos Fundamentales de Datos
Datos: Representan números, estadísticas y Big Data (grandes volúmenes de datos).
Machine Learning y Deep Learning
- Machine Learning: Consiste en enseñarle a una máquina lo que debe hacer como si fuera un humano.
- Deep Learning (Big Learning): Se refiere al aprendizaje profundo mediante un algoritmo muy específico.
Minería de Datos
La minería de datos tiene como objetivo encontrar patrones que se repiten dentro de los datos y que pueden determinar una tendencia; por ejemplo, determinar lo que más escucha una persona. Los datos sirven para medir; como dijo Peter Drucker: «Lo que no se mide, no existe».
Objetivos en las Organizaciones
El objetivo principal es obtener información para la toma de decisiones.
Tipos de Datos
Según el formato, se define el tipo de estudio y la herramienta que se va a utilizar.
Dato Estructurado
Posee un formato definido y campos fijos, como los almacenados en bases de datos relacionales. En estas, se pueden relacionar entre sí diferentes áreas mediante tablas (como tablas de proveedores o empleados). Para llenar una tabla, a veces se requiere de otra previa, ya que ciertos datos dependen de otros ingresados. Se encuentran comúnmente en Excel, Access y SQL.
Se organiza en un formato definido como tablas, donde existen:
- Tabla: Conjunto de datos organizados.
- Campo (columna): Tipo de dato (nombre, fecha, monto).
- Registro (fila): Conjunto de valores asociados a un elemento.
Datos Semiestructurados
No poseen un formato fijo ni contienen etiquetas o marcadores que permitan organizarlos de forma tabular. Se utilizan porque es más fácil guardarlos y ocupan menos espacio.
Ejemplos:
- Registros de navegación en un sitio web conocidos como Logs.
- Correos electrónicos (tienen estructura, pero contenido libre).
- Archivos planos (muchos datos en una sola columna, a veces separados por comas).
- Facturas en formato XML.
Dato No Estructurado
No tiene una estructura definida. Puede ser un archivo de video o de audio.
Herramientas de Gestión y Visualización
- Dashboard: Es un tablero de control para que una empresa visualice sus gastos, costos, logística, etc.
- Data Warehouse: Almacena y conecta datos. Trabaja exclusivamente con tablas (datos estructurados). Su función es clasificar datos internos y externos con la finalidad de entregar un reporte.
- Data Marts: Son un subconjunto de datos específicos organizados para facilitar el estudio de un área especial de la organización. La diferencia con el Data Warehouse es que este último es integral, mientras que el Data Mart es segmentado.
- ETL (Extract, Transform, Load): Proceso de extracción y transformación de datos hacia Data Marts para eliminar outliers (datos fuera de rango) y asegurar datos de calidad para generar reportes.
- Data Lake: Trabaja con todo tipo de datos (estructurados, semiestructurados y no estructurados).
Procesos de Estudio de Datos
Es el proceso de recopilar, transformar, interpretar y visualizar datos para generar información útil en la toma de decisiones.
Tipos de Procesos:
- Descriptivo: ¿Qué ha pasado? Es de carácter histórico. Ejemplo: Muestra las ventas de un año.
- Diagnóstico: ¿Por qué pasó? Investiga a qué se deben los cambios.
- Productivo: ¿Qué podría pasar? Ejemplo: Proyección de ventas.
- Predictivo: ¿Qué podría pasar? (Modelado de escenarios futuros).
- Prescriptivo: ¿Qué debería hacerse? Orientado a la toma de decisiones basada en los datos.
Preguntas Clave sobre la Gestión de Datos
¿Por qué no es suficiente tener datos para tomar decisiones?
Porque los datos por sí solos no tienen significado si no son procesados e interpretados. Para que sean útiles, deben transformarse en información mediante un estudio que permita comprender lo que está ocurriendo y apoyar la toma de decisiones.
¿Qué problema se genera cuando los datos provienen de distintos sistemas y no están integrados?
Cuando los datos no están integrados, se pierde la visión completa del negocio, lo que dificulta el estudio. Esto puede llevar a interpretaciones parciales o incorrectas, afectando la calidad de las decisiones.
¿Qué permite estudiar la información en el tiempo?
El uso de datos asociados a fechas permite observar tendencias, comparar períodos y detectar cambios en el comportamiento del negocio, lo que es clave para entender la evolución de las ventas.
¿Qué significa segmentar la información?
Segmentar la información implica dividir los datos en grupos más pequeños, como por producto o cliente, lo que permite estudiar en mayor detalle y obtener conclusiones más precisas.
¿Por qué es importante la calidad de los datos?
Porque datos incompletos, incorrectos o inconsistentes pueden generar resultados erróneos, lo que impacta directamente en la gestión del negocio.
¿Qué tipo de estudio permite entender qué está ocurriendo en el negocio?
El estudio descriptivo permite observar lo que ha pasado, identificando resultados y comportamientos a partir de datos históricos.
¿Qué tipo de estudio permite entender por qué ocurren ciertos resultados?
El estudio diagnóstico permite profundizar en las causas de los resultados, ayudando a explicar situaciones como bajas o alzas en las ventas.
¿Qué rol cumplen los códigos en los datos?
Los códigos permiten relacionar distintos conjuntos de datos entre sí, como vincular una venta con un cliente o un producto, facilitando el estudio integrado.
¿Por qué es importante estudiar más allá de los totales generales?
Porque los totales no permiten ver detalles importantes. Es necesario desagregar la información para identificar comportamientos específicos y tomar decisiones más informadas.
¿Cuál es el objetivo principal del estudio de datos en la empresa?
El objetivo es transformar los datos en información útil que permita reducir la incertidumbre y apoyar la toma de decisiones de manera informada.
¿Qué es un Insight?
Un Insight es un campo clave que se convierte en un patrón; nos da una clave de tendencias. Es una «verdad oculta» en los datos que no se puede identificar a simple vista. Podría dar la clave de por qué la empresa tiene tantas mermas, dónde se genera un cuello de botella o por qué es tan alta la tasa de rotación en una organización.
