Gráficos Estadísticos
Los gráficos estadísticos son recursos visuales que permiten comunicar información y se constituyen en un instrumento estadístico para analizar los datos de forma eficiente y desde diferentes niveles de lectura (Castellanos y Obando, 2013). Existen gráficos para datos numéricos y para datos categóricos.
Gráficos para Datos Categóricos
De acuerdo con el tipo de frecuencias, se pueden encontrar gráficos tipo barra, tarta, araña, barras acumuladas, pictogramas, anillos, entre otros.
Diagrama de Barras
Consiste en dibujar un rectángulo por cada uno de los valores de la variable (ix), de modo que las bases sean todas iguales, y la altura de cada rectángulo puede ser la frecuencia absoluta (fi) o la frecuencia relativa (hi).
Es el más conocido y utilizado de todos los tipos de gráficos de barras. En este, los datos se presentan en forma de barras en dos ejes cartesianos (coordenada y abscisa) que indican los diferentes valores.
El aspecto visual indica la longitud de los datos.
Diagrama de Sectores
Consiste en dividir un círculo en sectores circulares, uno para cada frecuencia (ix). El ángulo de cada sector será proporcional a la frecuencia y se calcula con una regla de tres simple.
Denominado también ‘gráficos de tarta’ (pie chart), consiste en un círculo dividido en tantas partes o porciones como valores de frecuencia relativa existan. A cada valor de frecuencia relativa le corresponde, de forma proporcional, un arco de círculo.
Gráfico de Arañas
Una gráfica de radar, también conocida como ‘diagrama de araña’, es una herramienta muy útil para mostrar visualmente los valores de una frecuencia relativa o absoluta. Su nombre se debe a que propone la visualización en forma de una telaraña. Proporciona la misma información que un diagrama de barras o un gráfico de tarta.
Gráfico de Anillos o Sectores
Otra forma de representar las frecuencias relativas en variables categóricas la constituyen los anillos o los sectores. Son pequeños sectores en forma de aro o anillo, divididos de forma proporcional según el valor de dicha frecuencia.
Gráficos para Datos Numéricos Enteros
Algunos gráficos para datos enteros son los mismos que para los datos categóricos; sin embargo, con datos numéricos enteros ya se pueden realizar gráficos para las frecuencias acumuladas.
Se propone una situación real ocurrida en Colombia en el contexto de la pandemia de COVID-19. En marzo de 2020 se registraron los primeros casos del virus, hasta el 3 de enero de 2021.
Diagrama de Barras para Variables Numéricas Enteras
Un gráfico de barras o gráfico de columnas es una forma de representar gráficamente un conjunto de datos o valores mediante barras rectangulares de longitud proporcional a los valores representados. Los valores representados pueden ser frecuencias relativas o frecuencias absolutas. Su lectura es directa.
Gráfico de Diagramas Integrales
Se realizan con las frecuencias acumuladas y solo para variables numéricas, ya sean de tipo entero o continuo.
Siguiendo el ejemplo anterior, se representa el diagrama integral para muertes por COVID-19 en Colombia, determinado por estratos sociales.
Las frecuencias acumuladas indican el número de muertes que se suman por estratos. Por ejemplo, la lectura de estas figuras propone que el número de muertes acumulado hasta el estrato 3 es de 47 851.
Tablas de Frecuencias para Datos Continuos (Intervalos)
Para determinar las frecuencias en datos continuos, se deben seguir los siguientes pasos que involucran cálculos matemáticos y la utilización de algunas fórmulas de aproximación, como la del rango, el número de intervalos mediante la fórmula de Sturges y la amplitud de intervalo.
Rango
Es el dato calculado mediante la diferencia entre el dato máximo y mínimo, como se muestra en la ecuación.
Número de Intervalos
Representado por la letra ‘m’, se define mediante la fórmula denominada fórmula de Sturges, como se muestra en la ecuación.
Intervalos Aparentemente Nominales
Son los intervalos utilizados en la clase que se emplea, tal como resulta del cálculo de la amplitud C.
Histograma
El histograma es una figura propia de las variables continuas, cuya tabla se ha organizado en intervalos de clase. Sobre el eje horizontal se observan los intervalos de clase y sobre el eje vertical, el valor de las frecuencias absolutas.
Diagrama de Tarta
El diagrama de tarta es una de las gráficas que se usa para representar las frecuencias relativas. Es común a todo tipo de variables, ya sean numéricas o categóricas. Al igual que con los datos enteros o categóricos, expresa el valor de la frecuencia relativa para cada uno de los elementos de la variable de estudio. En este caso, representa las categorías o los intervalos de clase, formados con la variable edad de las personas que se han hospitalizado a causa del contagio por COVID-19 en Colombia.
Ojivas
Las ojivas son gráficos exclusivos de los datos numéricos continuos que permiten visualizar el valor de las frecuencias acumuladas, tanto absolutas como relativas. Para este gráfico, en el eje horizontal se ubican los intervalos de clase; en el eje vertical, se leen las frecuencias absolutas acumuladas.
Polígonos de Frecuencia
El polígono de frecuencia es el gráfico estadístico creado a partir de un histograma de frecuencia y las marcas de clase. Estos histogramas emplean columnas verticales para reflejar frecuencias. El polígono de frecuencia se realiza uniendo los puntos que reflejan las marcas de clase del intervalo y la frecuencia absoluta.
Otras Gráficas
Existen otros tipos de gráficas relacionadas con datos categóricos o numéricos que proporcionan mucha información, entre ellas podemos nombrar los boxplot, las pirámides poblacionales y los diagramas de Pareto.
Boxplot
Para Walker et al. (2018), el diagrama de caja es una herramienta eficaz de visualización de datos y útil en diversas aplicaciones y disciplinas. Aunque existen métodos gráficos más sofisticados, el diagrama de caja sigue siendo relevante debido a su simplicidad, interpretabilidad y utilidad, incluso en la era del big data. Los boxplot se constituyen en gráficos para datos numéricos, generalmente agrupados en tablas de frecuencias.
Pirámides Poblacionales
Las pirámides poblacionales se han utilizado para representar la distribución de la población en diferentes eventos. En tiempos de COVID-19, se han popularizado y se han usado para representar y comparar el número de contagios por sexo y por grupos etarios.
Diagrama de Pareto
Un diagrama de Pareto es una técnica gráfica simple para ordenar elementos, desde el más frecuente hasta el menos frecuente (en forma descendente), basándose en el principio de Pareto.
Estadística
Definición de Estadística
Puede decirse que la estadística es un campo de estudio relacionada con la recopilación, organización y resumen de datos, así como la obtención de inferencias acerca de un conjunto de datos cuando solo se observa una parte de ellos.
Campos de Aplicación de la Estadística
- Nutrición
- Economía
- Gastronomía
- Agricultura
- Tecnología de alimentos
- Química
- Salud pública
- Ingeniería
- Biología
- Política
- Medicina
La Mediana
Las ‘n’ observaciones se ordenan de menor a mayor. Si el tamaño de la muestra es impar, la mediana es el valor ordenado en la posición (n+1)/2.
Cuando el tamaño de la muestra es par, la mediana es el promedio de los dos valores centrales del conjunto de valores.
La Moda
La moda se define como el valor con mayor frecuencia en una serie de datos. Puede que no exista o que existan varios valores modales.
Medidas de Posición
Las medidas de posición son estadísticas que dividen la distribución de los datos en partes iguales y describen la posición de un dato dentro de una distribución, una vez ordenados de forma creciente. Se estudiarán los percentiles, deciles y cuartiles.
Percentiles
Son valores que dividen la distribución en 100 partes iguales y nos indican la situación de los datos según su posición porcentual. Son 99 y se denotan por P1, P2, …, P99. Así, Pk corresponde al valor que supera al k% de los datos y es superado por el (100 – k)% de los datos.
Deciles
Son valores que dividen la distribución en 10 partes iguales, son 9 y se denotan por D1, D2, …, D9. Así, D2, por ejemplo, corresponde al valor que supera al 20% de los datos y es superado por el 80% de los datos.
Cuartiles
Son valores que dividen la distribución en 4 partes iguales, son 3 y se denotan por Q1, Q2, Q3. Así, Q1, por ejemplo, corresponde al valor que deja por debajo el 25% de los datos y por encima el 75% de los datos.
Medidas de Dispersión
Las medidas de tendencia central o de localización ofrecen una visión del grupo, pero esta es incompleta. Proporcionan información sobre el centro de los datos, pero no sobre su dispersión.
Para complementar las medidas de tendencia central, se utilizan las medidas de variabilidad, que miden la dispersión de los datos alrededor de la medida de localización empleada.
Las medidas de variabilidad indican cuán diseminados están los datos del grupo al que se le calcula la medida. Si un grupo tiene baja variabilidad, esto indica que está compuesto por individuos aproximadamente iguales; los datos están poco esparcidos y bastante agrupados.
Desviación Típica
La desviación típica es una medida que ofrece una mejor idea de cómo los datos se dispersan de la media. La desviación típica mide cómo los datos difieren de la media aritmética.
Medidas de Forma
Una distribución queda bien caracterizada mediante la tendencia central y la variabilidad, pero se complementa mejor si estas medidas se acompañan de otras que describan la asimetría y el apuntamiento de la distribución.
Sesgo
Las curvas que representan las observaciones de datos pueden ser simétricas o asimétricas (sesgadas). El sesgo es un indicador que mide el grado de asimetría o falta de simetría de una distribución.
La investigación cuantitativa es aquella en la que se recopilan y analizan datos cuantitativos sobre variables. La investigación cualitativa evita la cuantificación. Los investigadores cualitativos realizan registros narrativos de los fenómenos estudiados mediante técnicas como la observación participante y las entrevistas no estructuradas.
Investigación Cuantitativa
La investigación cuantitativa es una forma estructurada de recopilar y analizar datos obtenidos de distintas fuentes, lo que implica el uso de herramientas informáticas, estadísticas y matemáticas para obtener resultados. Es concluyente en su propósito, ya que busca cuantificar el problema y entender su generalización mediante la obtención de resultados proyectables a una población mayor.
Variable Cuantitativa Continua
Si a lo largo de un intervalo puede tomar cualquier valor; es decir, entre dos valores de la variable siempre puede existir otro valor intermedio.
Ejemplos de Variables Continuas
Talla o altura de personas, peso de objetos, salario de empleados, tiempo dedicado a realizar una actividad, temperatura de un lugar.
Variable Cuantitativa Discreta
Si solo puede tomar valores de un conjunto de números; existen separaciones entre dos valores sucesivos que no pueden llenarse con valores intermedios; en este caso, la variable toma valores aislados.
Ejemplos de Variables Discretas
Empleados de una organización, artículos vendidos en un almacén, instituciones educativas de un sector; en estos casos, solo es posible medir la variable con valores como 15, 16, 17 u otro número entero, y no con valores intermedios como 15.7 o 16.8.
Variable Nominal
Son aquellos datos cuyos valores no se pueden ordenar.
Las variables nominales permiten, únicamente, definir categorías no ordenadas, cuyas posiciones pueden ser intercambiadas arbitrariamente. Por ejemplo: el sexo, nacionalidad, estado civil.
Variable Ordinal
Es una variable cualitativa que presenta una posición o clasificación ordenada.
Son aquellos datos cuyos valores se pueden ordenar según un orden de prioridad; por ejemplo, el grado de satisfacción de un producto, la mejoría en un tratamiento clínico, la satisfacción del servicio al cliente o el grado de incertidumbre por la compra de un electrodoméstico.
Variables Discretas
Las variables discretas o discontinuas asumen siempre valores enteros.
Ejemplo:
- El número de hijos de una pareja.
- El número de dientes con caries.
- El número de camas de hospital.
- El número de hematíes por campo.
- El pulso, etc., que solo pueden tomar valores de un conjunto finito.
Variables Continuas
Las variables continuas pueden tomar tantos valores como permita la precisión del instrumento de medición.
Por ejemplo, el peso al nacer de un bebé de 2500 gramos podemos medirlo con mayor precisión, como 2496.75 gramos, si nuestra báscula lo permite.
Variable Nominal (Revisión)
Una variable nominal tiene categorías a las que se les asignan nombres sin ningún orden entre ellos; por ejemplo, el sexo. La categoría ‘hombre’ no tiene ninguna relación de orden sobre la categoría ‘mujer’.
Las variables nominales no tienen que ser necesariamente dicotómicas (dos categorías), sino que pueden tener varias categorías, como el estado civil (soltero, casado, divorciado, viudo, unión libre) o el grupo sanguíneo según el sistema ABO (A, B, AB y O).
Variable Ordinal (Ejemplo)
Ahora, supongamos que se nos pregunta sobre la calidad de la clase que acabamos de realizar y se nos ofrecen las siguientes opciones de respuesta: muy malo, malo, regular, bueno y excelente. Esta clasificación tiene un orden: excelente es mejor que bueno, bueno que regular y así sucesivamente; sin embargo, la ‘distancia’ entre excelente y bueno no tiene por qué ser la misma que entre malo y muy malo.
Estamos ante una variable ordinal, que se define como aquella cuyas categorías tienen un orden, aunque las diferencias entre ellas pueden no ser iguales.
Variable de Intervalo
Es una variable numérica.
Pueden presentarse en grados o magnitudes.
Estas variables, además de clasificar y ordenar las categorías, indican los grados de distancia entre ellas.
Ejemplo: Temperatura, coeficiente intelectual.
Resumen de la Unidad III: Medidas de Resumen
Objetivos
- Explicar el teorema del límite central en relación con diferencias de medias y proporciones.
- Desarrollar habilidades en inferencia estadística con precisión y objetividad.
Medidas de Resumen Descriptivas
Definición: Se utilizan para describir conjuntos de datos, de manera similar a cómo se describe a una persona con características como altura y peso.
Estadísticos vs. Parámetros:
- Estadísticos: Cálculos a partir de una muestra.
- Parámetros: Cálculos a partir de toda la población.
Tipos de Medidas en Estadística Descriptiva
Medidas de Tendencia Central:
Resumen del conjunto de datos en un solo valor.
- Promedio o Media Aritmética
- Mediana
- Moda
Medidas de Dispersión:
Indican cómo varían los datos respecto a la tendencia central.
- Rango
- Varianza Muestral
- Coeficiente de Variación (C.V)
Medidas de Forma:
Identifican la distribución de los datos.
- Coeficiente de Asimetría o Sesgo
- Coeficiente de Curtosis
Medidas de Tendencia Central
Promedio: Suma de todos los datos dividida entre el número total de datos.
Mediana: Valor central en un conjunto de datos ordenados.
- Si el número de datos (n) es impar: Mediana = posición ((n + 1) / 2).
- Si n es par: Mediana = media de los dos valores centrales.
Moda: Valor más frecuente en el conjunto de datos.
Medidas de Posición
Cuantiles: Dividen el conjunto de datos en partes iguales.
- Cuartiles: Dividen en cuatro partes.
- Deciles: Dividen en diez partes.
- Percentiles: Dividen en porcentajes.
Medidas de Dispersión
Rango: Diferencia entre el valor máximo y mínimo.
Varianza Muestral: Indica la desviación de los datos respecto a la media.
Coeficiente de Variación: Relación entre la desviación estándar y la media; permite comparar dispersiones de diferentes distribuciones.
Medidas de Forma
Coeficiente de Asimetría: Indica la inclinación de la distribución de los datos.
- Sesgo Positivo: Media > Mediana.
- Sesgo Negativo: Media < Mediana.
Coeficiente de Curtosis: Mide la concentración de los datos alrededor de la media.
- Distribución Mesocúrtica: Moderada (valor = 0).
- Distribución Leptocúrtica: Elevada (valor > 0).
- Distribución Platicúrtica: Reducida (valor < 0).
Conclusión
Las medidas de resumen son herramientas esenciales en estadística descriptiva que permiten analizar y representar datos de manera comprensible. A través de la interpretación de estas medidas, se puede obtener una visión clara sobre la tendencia, variabilidad y forma de los datos.
Medidas Epidemiológicas
Introducción a la Epidemiología
- Definición: Estudio de la distribución y determinantes de enfermedades en poblaciones humanas. Se centra en la frecuencia de enfermedades y sus determinantes, buscando entender quién, dónde y cuándo enferma.
Componentes de la Tasa
- Numerador: Número de individuos que experimentan el evento (muerte, enfermedad, etc.).
- Denominador: Número total de individuos en la población expuestos o en riesgo.
- Período de tiempo: Tiempo específico durante el cual se observa la frecuencia del evento.
Medidas de Frecuencia
- Mortalidad: Describe la frecuencia del evento muerte en una población.
- Morbilidad: Describe la frecuencia de eventos de enfermedad y discapacidad.
- Diferencia entre Morbilidad y Mortalidad:
- Prevalencia: Casos nuevos y existentes de una enfermedad en un momento determinado.
- Incidencia: Casos nuevos de una enfermedad en un período definido.
Factores de Riesgo
- Definición: Circunstancias o características que aumentan la probabilidad de padecer una enfermedad. No son necesariamente causas, pero están relacionadas con el hecho de padecer la enfermedad.
Tipos de Epidemiología
- Epidemiología Descriptiva: Estudia la frecuencia de la enfermedad en la comunidad.
- Epidemiología Analítica: Investiga las causas de la enfermedad y las asociaciones entre factores.
Si necesitas más detalles sobre algún aspecto específico o una sección en particular, házmelo saber.
Medidas Epidemiológicas
- Medidas de Frecuencia de Enfermedad: Reflejan la ocurrencia de la enfermedad en la población.
- Medidas de Asociación o Efecto: Reflejan la magnitud de la asociación estadística entre un factor y la enfermedad.
- Medidas de Impacto Potencial: Predicen el impacto de un factor de riesgo en la frecuencia de la enfermedad.
Medidas de Frecuencia
- Prevalencia: Proporción de personas con la enfermedad en un período.
- Incidencia: Casos nuevos de una enfermedad en un período.
Características de la Prevalencia e Incidencia
- Prevalencia: Refleja la magnitud de un problema y depende de los casos existentes y la duración de la enfermedad.
- Incidencia: Indicador de la velocidad de ocurrencia de una enfermedad, estimador del riesgo absoluto.
Mortalidad
- Tasa de Mortalidad General: Magnitud de muertes en una población.
- Tasa de Mortalidad Específica: Calculada para grupos específicos (edad, sexo, causa).
- Tasa de Letalidad: Proporción de casos de una enfermedad que resultan mortales.
Medidas de Asociación
- Riesgo Relativo: Compara la frecuencia de daño entre expuestos y no expuestos a un factor de riesgo.
Conclusión
Las medidas epidemiológicas son esenciales para entender la salud de las poblaciones, permitiendo evaluar la frecuencia y el impacto de enfermedades, así como identificar factores de riesgo y establecer inferencias causales.
Medidas Adicionales de Forma y Dispersión
Coeficiente de Variación (C.V)
El coeficiente de variación permite comparar las dispersiones de dos distribuciones distintas, siempre y cuando ambas sean positivas; se obtiene de la relación entre la desviación estándar y su media.
Coeficiente de Pearson
El coeficiente de Pearson varía entre -3 y 3, y su fórmula es:
Este coeficiente es el menos utilizado debido a sus altas exigencias. Para emplearlo, se requiere que tanto el extremo izquierdo como el derecho de la distribución de los datos presenten un comportamiento similar; de lo contrario, no es posible estimar la asimetría. El cálculo se basa en la posición que presentan los cuartiles y la mediana (Suárez y Tapia, 2012). La medida de Bowley varía entre -1 y 1 y se calcula de acuerdo con la siguiente expresión:
Coeficiente de Fisher
El coeficiente de Fisher está basado en las desviaciones que presentan los datos con respecto a la media.
Curtosis
La curtosis es una medida que permite analizar la concentración de los datos alrededor de los valores medios de la muestra (Mendenhall, 1995).
📌 Objetivos del Tema
- Explicar el teorema del límite central en relación con diferencias de medias y proporciones.
- Desarrollar habilidades en inferencia estadística con precisión y objetividad.
🗣️ Entrevista en Investigación
El entrevistador debe:
- Preparar bien las preguntas.
- Interpretar correctamente las respuestas.
- Detectar posibles mentiras.
- Evitar dar opiniones o sugerir respuestas.
- Motivar la participación del entrevistado.
📊 Conceptos Básicos
- Población: Conjunto total de personas o elementos de estudio.
- Muestra: Subconjunto representativo de la población.
- Muestreo: Método para seleccionar elementos de la muestra.
🎯 Importancia del Diseño Muestral
- Ahorra tiempo y costos.
- Mejora el análisis de variables.
- Aumenta el control y la precisión.
📈 Tipos de Muestreo
Tipo de Muestreo | Características principales |
---|---|
Dirigido o de juicio | Selección por criterio experto. Fácil y económico. |
Aleatorio simple | Todos los elementos tienen la misma probabilidad. Objetivo y fácil de aplicar. |
Aleatorio múltiple | Se agregan casos hasta obtener resultados consistentes. |
Sistemático | Selección ordenada según una constante. Puede generar sesgos si la constante está asociada al fenómeno. |
Estratificado | Se divide la población en grupos homogéneos (estratos) y se selecciona aleatoriamente de cada estrato. Mayor precisión. |
Por clusters (grupos) | Selección por grupos. Mayor error muestral, pero útil para poblaciones dispersas. |
🎲 Métodos Adicionales de Muestreo
Probabilístico aleatorio simple (tómbola):
- Identificar la población.
- Listar las unidades.
- Calcular la muestra.
- Numerar y seleccionar aleatoriamente.
Por conveniencia:
- Se eligen casos disponibles. No recomendado por falta de rigor.
Por criterios:
- Se establecen requisitos previos que los casos deben cumplir.
📏 Tamaño Muestral
- Debe permitir explicar el fenómeno con seguridad y eficiencia.
- Cuanto más grande sea la muestra, menor será el error.
- Evitar aumentar la muestra sin criterios claros para no generar sesgos.
- Según Fisher, considerar los recursos disponibles y los requerimientos del análisis.