Laboratorio 5: Diseño de Escalas de Sentido de Pertenencia
Objetivo: Diseñar una escala tipo Likert para medir el sentido de pertenencia en la Facultad de Ciencias Sociales.
Parte A: Proposición de Ítems y Escala de Respuesta
Paso 1: Proponer ítems adecuados.
La escala debe medir tres propiedades:
- Aceptación
- Apoyo
- Respeto
Cada propiedad debe tener al menos un ítem, y al menos uno debe tener redacción negativa (revertida).
Resolución: Ítems Propuestos
PROPIEDAD | ÍTEM |
Aceptación | «Siento que soy parte de la comunidad de la FCS.» |
Apoyo | «Cuando necesito ayuda, sé que puedo contar con mis compañerxs.» |
Respeto | «Siento que mi opinión es valorada en la Facultad.» |
Aceptación | «No me siento integradx en la vida universitaria.» (ítem negativo) |
Apoyo | «Lxs docentes se preocupan por nuestro aprendizaje.» |
Paso 2: Escala de Respuesta
Se utilizará una escala tipo Likert de 5 puntos, típica para este tipo de medición:
- Totalmente en desacuerdo
- En desacuerdo
- Ni de acuerdo ni en desacuerdo
- De acuerdo
- Totalmente de acuerdo
Parte B: Validez de la Escala
Paso 3: Validez Aparente
Paso a paso:
- Preguntarse: ¿Los ítems parecen, a simple vista, adecuados para medir sentido de pertenencia?
- Se evalúa desde el sentido común o la percepción inmediata.
Resolución:
Sí. Los ítems se entienden con claridad y están directamente relacionados con las dimensiones propuestas (aceptación, apoyo y respeto).
Paso 4: Validez de Contenido
Resolución:
La validez de contenido se sustenta porque los ítems están construidos a partir de una definición teórica clara de “sentido de pertenencia” (Baumeister & Leary, 1995; Maslow, 1943), y cubren sus dimensiones básicas. Además, contemplan ítems positivos y uno revertido, lo cual es importante para evitar sesgos en las respuestas.
Laboratorio 7: Esther Duflo y el Método Experimental
Objetivo: Aplicar el razonamiento experimental a problemas sociales, a partir de la charla TED de Esther Duflo.
Tareas del Práctico
1) Problema Lógico Subyacente y Razonamiento Contrafáctico
Paso a paso:
- El problema es que no podemos observar qué habría pasado si no se aplicaba una intervención: eso es el contrafáctico.
Resolución:
La imposibilidad lógica es que no podemos observar el mundo con y sin intervención al mismo tiempo. El razonamiento contrafáctico es imaginar qué habría pasado en ausencia de la política aplicada, para compararlo con lo que realmente ocurrió.
2) “Dividir una Gran Pregunta en Pequeñas Preguntas” y “Última Milla”
Paso a paso:
- Duflo sugiere hacer preguntas concretas y experimentables.
- “Última milla” = cuando el problema no está en la tecnología, sino en la implementación efectiva.
Resolución:
Duflo divide la gran pregunta “¿Sirve la ayuda internacional?” en preguntas como: ¿Cómo aumentar la vacunación? ¿Cómo mejorar la asistencia escolar? Estas preguntas sí pueden responderse experimentalmente. La “última milla” es cuando las soluciones ya existen pero no llegan a quien las necesita.
3) Esquema sobre Vacunación en India
Paso a paso:
- Variables W: antecedentes (costumbres, cultura, salud general).
- Variables S: simultáneas (mitos sobre vacunas, distancia, recursos).
- Variables Z: ortogonales (políticas generales, clima, etc.).
Resolución (mapa lógico simplificado):
[W] Nivel educativo de madres ─┐ ├──> Vacunación [S] Mitos sobre vacunas ──────┤ [S] Distancia al centro ──────┤ [S] Incentivo (lentejas) ─────┤ [Z] Presupuesto del estado ───┘
4) Elementos del Diseño Experimental en el Caso de Udaipur
Resolución:
- Grupo control: sin cambios.
- Grupo 1: intervención con facilidad de acceso (campamentos).
- Grupo 2: acceso + incentivo (campamentos + lentejas).
- Aleatorización: aldeas asignadas al azar.
- Medición del efecto: % de vacunación completa.
5) Aplicación a la Pandemia y PISA (Actividad Semanal)
Paso a paso:
- Identificar la variable dependiente (aprendizajes).
- Variable de tratamiento (cierre escolar).
- Medir antes/después.
Resolución:
Podríamos aplicar un diseño experimental o cuasi-experimental comparando resultados de PISA antes y después de la pandemia, entre países o regiones que tuvieron mayores o menores interrupciones escolares. Se debe tener información sobre: duración de cierres, tipo de educación remota, nivel socioeconómico, etc.
Laboratorio 8: Diseño Experimental sobre la Pandemia y Aprendizajes
Tareas del Práctico
1) Identificar Factores (del Anexo) y Diagramar
Paso a paso:
- Extraer del texto los factores que afectaron el aprendizaje.
- Clasificarlos como variables:
- W: antecedentes.
- S: simultáneas.
- C: contexto.
Resolución (ejemplo):
- W (antecedentes): nivel socioeconómico, experiencia docente.
- S (simultáneas): acceso a tecnología, formato de ERE, políticas de evaluación.
- C (contextual): decisiones nacionales y locales de política educativa.
2) Desagregar la Gran Pregunta
Pregunta principal: ¿Qué impactos tuvo la pandemia en los aprendizajes?
Subpreguntas:
- ¿Afectó más a estudiantes de bajo nivel socioeconómico?
- ¿Influyó el acceso a dispositivos tecnológicos?
- ¿Qué efecto tuvo el tipo de ERE implementado?
3) Unidad de Análisis
Resolución:
Los/as estudiantes de educación media (secundaria), evaluados en PISA.
4) Variable Dependiente (y Cuándo Medirla)
Resolución:
- Variable dependiente: desempeño académico (puntaje en pruebas PISA).
- Se mide: antes de la pandemia (2018) y después (2022).
5) Variable Independiente (de Tratamiento)
Resolución:
Tratamiento: intensidad del cierre escolar (días sin presencialidad o modalidad ERE).
6) Conformación de Grupos y Selección
Resolución:
- Grupo experimental: estudiantes con más días de cierre escolar.
- Grupo control: estudiantes con presencialidad continua o retorno más temprano.
Idealmente se seleccionan mediante emparejamiento en características previas.
7) Variables a Controlar
Resolución:
- Nivel socioeconómico.
- Acceso a internet.
- Nivel educativo de padres.
- Región.
- Tipo de escuela.
8) Tipo de Diseño
Resolución:
- Diseño cuasi-experimental, dado que no se puede asignar aleatoriamente la exposición a la pandemia.
- En particular, sería un diseño de comparación entre grupos no equivalentes con pre y post test.
Laboratorio 6: Métodos Cuantitativos I (2025)
Análisis Estadístico de una Escala de Sentido de Pertenencia (PISA 2022, Uruguay)
Ejercicio 1: Análisis de Comportamiento Univariado (Tabla 1)
a. Exploración de Comportamiento Estadístico de los Ítems
Medidas clave:
- Muy de acuerdo = 1, Muy en desacuerdo = 4
- Una media baja en ítems positivos indica alto acuerdo (alto sentido de pertenencia)
- Una media alta en ítems negativos también indica alto sentido de pertenencia (porque hay desacuerdo con afirmaciones negativas)
Ítem | Enunciado resumido | Media | Mediana | Desvío | CV | Interpretación resumen |
1 | Me siento como un extraño | 3.10 | 3.00 | 0.83 | 0.27 | Alto desacuerdo (positivo) |
2 | Hago amigos con facilidad | 2.11 | 2.00 | 0.86 | 0.41 | Moderado acuerdo |
3 | Me siento integrado | 1.92 | 2.00 | 0.73 | 0.38 | Alto acuerdo |
4 | Me siento raro y fuera de lugar | 3.07 | 3.00 | 0.81 | 0.26 | Alto desacuerdo |
5 | Hay estudiantes a los que les caigo bien | 1.69 | 2.00 | 0.65 | 0.39 | Muy alto acuerdo |
6 | Me siento solitario | 3.07 | 3.00 | 0.86 | 0.28 | Alto desacuerdo |
b. Interpretación de la Distribución Observada
Se observa lo esperado: Estudiantes acuerdan con afirmaciones positivas (bajas medias en ítems 2, 3, 5) y desacuerdan con afirmaciones negativas (altas medias en ítems 1, 4, 6).
Esto indica que la mayoría tiene una percepción positiva del sentido de pertenencia.
c. Comparación entre Ítems
No todos los ítems informan el mismo nivel.
Ejemplo: ítem 5 tiene una media muy baja (1.69) → muy buena percepción.
Ítem 2 (2.11) sugiere mayor dispersión en la percepción.
Los ítems invertidos (1, 4, 6) funcionan bien: tienen medias altas que sugieren desacuerdo con percepciones negativas, como se espera.
d. Conclusión Preliminar
Se puede inferir que los estudiantes uruguayos de secundaria en 2022 reportan un alto sentido de pertenencia. Muestran sentirse aceptados, acompañados y poco excluidos del centro educativo.
Ejercicio 2: Matriz de Correlaciones (Tabla 2)
e. Comportamiento Esperado
- Ítems del mismo sentido (positivos o negativos): deberían correlacionar positivamente.
- Ítems de sentido contrario (positivo vs negativo): deberían correlacionar negativamente.
Esto indicaría que todos están midiendo coherentemente el mismo constructo.
f. Análisis de Correlaciones según Sierra Bravo
g. Consistencia de Correlaciones
- Consistentes con lo esperado:
- Ítems del mismo tipo tienen correlaciones positivas fuertes (ej. Ítem 1 – Ítem 4, Ítem 2 – Ítem 3).
- Ítems de sentido opuesto correlacionan negativamente (ej. Ítem 1 – Ítem 2, Ítem 4 – Ítem 3).
No se observan correlaciones incoherentes. Todos los ítems se comportan como se espera para una escala válida.
Ejercicio 3: Escalamiento y Confiabilidad (Tabla 3)
a. Evaluación Global: Alfa de Cronbach
Alfa de Cronbach global: 0.814
Según criterios estándar:
- 0.80 = alta confiabilidad interna
Infiere:
- La escala es confiable.
- Existe consistencia interna adecuada entre los ítems.
- Es un buen indicador indirecto de validez.
b. Análisis Psicométrico por Ítem
Conclusión final del análisis de la escala:
La escala muestra una estructura sólida, con coherencia teórica y estadística. Todos los ítems aportan información útil. Ninguno necesita ser eliminado, aunque el ítem 5 podría revisarse más a fondo. La confiabilidad es alta (α = 0.814) y las correlaciones entre ítems son consistentes. En conjunto, esta escala es apta para medir el sentido de pertenencia en la población estudiantil uruguaya.
Fundamentos Teóricos de la Medición en Ciencias Sociales
Las Escalas: Concepto y Objetivo
Las técnicas de escalas son un conjunto de procedimientos desarrollados en la investigación social para abordar uno de los problemas más difíciles: la medición.
Objetivo de las escalas: Transformar conceptos complejos de las ciencias sociales, que no son directamente observables (como actitudes, estados emocionales, rasgos psicológicos, valores, religiosidad, prejuicios, etc.), en operaciones empíricas que permitan «medir» determinadas variables en las personas y la sociedad.
En lugar de usar uno o más indicadores aislados, una escala utiliza un conjunto coherente y orgánico de indicadores: (Afirmaciones, preguntas, comportamientos). La aplicación más frecuente en sociología y psicología social es la medición de actitudes, donde la unidad de análisis es el individuo y las opiniones son los indicadores del concepto general de actitud.
La Escala de Likert
La técnica de la escala de Likert (propuesta por Rensis Likert en los años treinta), es también conocida como escalas aditivas (summated rating scales). Es el procedimiento más utilizado para el estudio de las actitudes.
¿Cómo es? Se basa en una serie de afirmaciones o preguntas (una batería de preguntas). Para cada afirmación, se pide al entrevistado que exprese su grado de acuerdo. Las opciones de respuesta suelen tener «autonomía semántica parcial». Originalmente Likert propuso siete alternativas (totalmente de acuerdo, de acuerdo, en parte de acuerdo, dudoso, en parte en desacuerdo, en desacuerdo, totalmente en desacuerdo), pero se han reducido a cinco o cuatro.
Se asignan puntuaciones numéricas a estas opciones (ej., 1, 2, 3, 4, 5), generalmente de manera arbitraria según una secuencia simple. La puntuación total del sujeto en la escala se obtiene sumando las puntuaciones obtenidas en cada uno de los elementos. Este es el principio intuitivo detrás del nombre «aditiva». La construcción implica varias fases: a) formulación de las preguntas, b) aplicación a una muestra, c) selección de preguntas y evaluación de la coherencia interna (usando la correlación elemento-escala y el coeficiente alfa de Cronbach).
Busca medir una única dimensión subyacente (unidimensionalidad), aunque técnicas como el análisis factorial a veces revelan múltiples dimensiones. Uno de sus inconvenientes es que la puntuación final no representa una verdadera variable cardinal; no hay elementos para afirmar que la distancia entre puntuaciones sea igual. Falta de reproducibilidad: La misma puntuación total puede obtenerse con diferentes combinaciones de respuestas a los elementos individuales. La asignación numérica a las categorías de respuesta es convencional/arbitraria.
Ejemplo: escala del «sentimiento de eficacia política» Se presentan afirmaciones como «La gente como yo no tiene ninguna influencia en lo que hace el gobierno» o «A veces la política parece tan complicada que no es posible entender lo que está pasando». Los entrevistados indican su grado de acuerdo en opciones graduadas como «totalmente de acuerdo», «de acuerdo», «en desacuerdo», «totalmente en desacuerdo». Se asignan puntos a estas opciones y se suman para obtener una puntuación total que estima el «sentimiento de eficacia política» del individuo.
El Escalograma de Guttman
Técnica para medir actitudes basada en el hecho de que algunos ítems indican, en mayor medida la intensidad de la actitud. La escala está constituida por afirmaciones, las cuales poseen las mismas características que en el caso de Likert. El escalograma garantiza que cada afirmación mide la misma dimensión de la misma variable. Está compuesta por una sucesión de elementos que presentan una dificultad creciente. La característica clave es la propiedad acumulativa o escalabilidad: si un sujeto responde afirmativamente a una pregunta, se asume que también ha respondido afirmativamente a todas las preguntas que la preceden en grado de dificultad.
Los elementos suelen ser preguntas con respuesta dicotómica (sí/no, de acuerdo/en desacuerdo). En una escala perfecta, solo serían posibles ciertas secuencias de respuestas (las que cumplen la propiedad acumulativa).
Ejemplo: Plantea preguntas sobre el grado de aceptación de un individuo de una minoría étnica en relaciones de intimidad creciente: ¿Estaría dispuesto a aceptarlo como visitante?, ¿como vecino?, ¿como amigo?, ¿como cónyuge?. La expectativa es que si alguien responde afirmativamente a una relación más íntima (ej. cónyuge), necesariamente responderá afirmativamente a las menos íntimas (amigo, vecino, visitante).
Las respuestas se codifican como binarias (1 para sí, 0 para no), y la puntuación total (suma de 1s) indica el grado de distancia social. De una puntuación total, se puede «reproducir» qué preguntas específicas respondió afirmativamente el sujeto (ej. una puntuación de 2 en la escala de 4 ítems implica aceptar como visitante y vecino, pero no como amigo o cónyuge): característica distintiva es la reproducibilidad. El modelo teórico es determinista y rígido: limitación para interpretar la realidad social compleja. La puntuación final obtenida con esta técnica es fundamentalmente una variable ordinal.
Desventajas: Es aplicable principalmente a actitudes o comportamientos que son claramente escalables. Si la actitud es muy compleja, puede haber demasiados «errores» (secuencias de respuesta que no encajan en el modelo acumulativo). A pesar de buscar la unidimensionalidad de una manera más rigurosa que Likert, la puntuación sigue siendo ordinal.
Error en las Escalas
La idea subyacente es la de desviación de un modelo o la presencia de factores que impiden una medición precisa del concepto que se desea registrar. El «error» tiene un significado específico relacionado con la propiedad acumulativa: una escala de Guttman ideal debería producir solo secuencias de respuestas que reflejen una dificultad creciente. El modelo de Guttman, al ser «determinista e inflexible», no maneja bien la posibilidad de error o el paso gradual entre posiciones, lo cual es una crítica a este modelo en la interpretación de la realidad social compleja. Los errores son respuestas que no se ajustan a las secuencias esperadas según el modelo acumulativo. Por ejemplo, en la escala de distancia social de Bogardus, responder afirmativamente a «casarse con un individuo de color» pero negativamente a «tenerlo como vecino» se considera un error.
Error en las Escalas – Likert
Las preguntas individuales (elementos) están más expuestas a errores accidentales. Utilizar escalas con varios elementos ayuda a reducir el peso de estos errores. Pueden producirse errores provocados por respuestas emitidas al azar (seudo-opiniones) o por responder de manera mecánica y sistemática a todas las preguntas de la misma forma. Incluir la opción «no sé» y variar la dirección de las afirmaciones ayuda a mitigar esto.
Validez en la Medición de Escalas
La validez es «la medida en que una determinada forma de traducción de un concepto en variable registra efectivamente el concepto que se pretende registrar». Se trata de asegurar que la escala que construimos realmente mida el concepto complejo (como actitud, religiosidad, autoritarismo, eficacia política, etc.) para el que fue diseñada, y no otra cosa.
Para mejorar la validez de una escala, especialmente en Likert, es crucial que las afirmaciones (elementos) se formulen basándose en una reflexión teórica sólida sobre los distintos aspectos o dimensiones del concepto que se desea estudiar. Se recomienda un enfoque deductivo en lugar de inductivo. La unidimensionalidad de la escala (que todos los elementos midan un único concepto subyacente) es un aspecto crucial para la validez. Aunque el análisis de elementos (correlación elemento-escala, Alfa de Cronbach) es útil para evaluar la coherencia interna, no es suficiente para garantizar la unidimensionalidad. Técnicas como el análisis factorial son muy eficaces para controlar el carácter unidimensional de una escala. Si una escala diseñada para medir un solo concepto revela múltiples dimensiones subyacentes mediante análisis factorial (como en el ejemplo de la escala de eficacia política nacional vs. local), se concluye que no es unidimensional, lo que impacta en su validez como medida de un único concepto.
Validez de la Medida en Ciencias Sociales
La pregunta central de Cheng y Powel es sobre la validez. Según Shadish, Cook y Campbell (2002): Usamos el término validez para referirnos a la verdad aproximada de una inferencia. Cuando decimos que algo es válido, juzgamos en qué medida la evidencia relevante apoya esa inferencia como verdadera o correcta. La evidencia proviene de hallazgos empíricos y de su consistencia con otras fuentes de conocimiento (hallazgos y teorías del pasado). Evaluar la validez implica juicios humanos falibles. Nunca estamos seguros de que las inferencias sean verdaderas o que otras hayan sido concluyentemente falsadas. Por tanto, los juicios de validez nunca son absolutos; hay grados de validez. Términos como «válido» o «inválido» implican siempre un «aproximadamente» o «tentativamente».
RECORDAR: La validez es una propiedad de las inferencias, no una propiedad de los diseños o métodos. Un mismo diseño puede llevar a inferencias más o menos válidas en diferentes circunstancias. Ningún método por sí solo garantiza la validez.
Tipología General de la Validez (Campbell, Cook y Campbell)
Cuatro tipos corresponden a cuatro preguntas principales que enfrentan los investigadores al interpretar estudios causales:
- Validez de Conclusión Estadística: Se refiere a la validez de las inferencias sobre si la presunta causa y efecto covarían (están correlacionados) y cuán grande y fiable es esa covariación. Implica el uso de estadísticas para inferir la covariación.
- Validez Interna: Se refiere a la validez de las inferencias sobre si la covariación observada entre A (tratamiento) y B (resultado) refleja una relación causal de A a B tal como fueron manipulados o medidos en el estudio específico. Pregunta si el tratamiento experimental causó la diferencia en esta instancia particular.
- Validez Externa: Se refiere a la validez de las inferencias sobre si la relación causal observada se mantiene (es generalizable) al variar las personas, los entornos, las variables de tratamiento y las variables de medición.
- Validez de Constructo: Se refiere a la validez de las inferencias sobre los constructos de orden superior que representan los elementos muestreados en el estudio: personas, entornos, tratamientos y observaciones (resultados). Es el grado en que se justifican las inferencias de las instancias observadas (casos particulares) a los constructos generales que representan.
Validez de la Medida: Profundizando en los Constructos y las Observaciones
Si bien la Validez de Constructo en la tipología general se aplica a personas, entornos, tratamientos y resultados, en el contexto de la medición en Ciencias Sociales, nos enfocamos mucho en cómo medimos los constructos abstractos (como inteligencia, depresión, actitud, desventaja socioeconómica) a través de operaciones y observaciones específicas (indicadores, tests, escalas). Evaluar la validez (particularmente de la medida) implica juicios sobre las operaciones teóricas y empíricas.
Validez de la Medida en Psicometría
En términos psicométricos, la validez de medida implica que las interpretaciones derivadas de los resultados de una prueba o instrumento están respaldadas por evidencia empírica y teórica que justifica su uso para un propósito específico. Esto significa que no solo se evalúa el instrumento en sí, sino también las inferencias que se hacen a partir de sus resultados en un contexto determinado.
Subtipos de Validez de la Medida
- Validez Patente, Aparente o «Face Validity»: Es apreciable al inicio de la investigación. Se refiere a la conceptualización adoptada y a las decisiones más generales sobre la operacionalización. La medida parece medir lo que pretende medir, a simple vista o juicio experto inicial. Es fundamental porque permite introducir rectificaciones rápidas. Aunque es la forma más superficial de validez, también refiere a la percepción de los evaluados sobre si el instrumento parece medir lo que se propone. Aunque no garantiza la validez real, puede influir en la disposición de los participantes a responder sinceramente.
- Validez de Contenido: Se concentra en las relaciones entre la definición operacional del concepto, sus dimensiones y los indicadores propuestos. La pregunta clave es: ¿Qué aspectos del concepto adoptado están siendo realmente observados con el conjunto de indicadores propuestos? Permite corregir la operacionalización, agregando indicadores para dimensiones no cubiertas o descartando indicadores cuya relación con el concepto es dudosa o infundada. Evalúa si los ítems o preguntas del instrumento representan adecuadamente el universo del constructo que se desea medir. Por ejemplo, al medir la satisfacción laboral, se espera que los ítems aborden diversas facetas del trabajo, como el ambiente laboral, las condiciones físicas, las relaciones interpersonales, entre otras.
- Validez de Constructo (en el contexto de la medición empírica): Se practica una vez que el registro de datos se ha completado (sobre la matriz de datos). Toma el carácter de un análisis estadístico. La Psicometría se dedica a la evaluación estadística de la medición de constructos. Teoría clásica de los test y teoría de respuesta al ítem como enfoques. Se busca justificar la inferencia de que las observaciones/indicadores específicos (las operaciones) realmente representan el constructo teórico que se intenta medir. Se refiere a la medida en que el instrumento realmente mide el constructo teórico que pretende evaluar. Esto implica demostrar que el instrumento se relaciona con otras medidas de manera coherente con las teorías existentes. Por ejemplo, una escala de ansiedad debería correlacionarse positivamente con otras medidas de ansiedad y negativamente con medidas de bienestar.
- Validez Predictiva / de Criterio: Establece una relación entre la medida obtenida y la medida de otros conceptos que la teoría indica que actúan como causas o efectos del concepto medido. Depende fundamentalmente de los otros subtipos de validez de la medida y también de la validez interna. Ejemplo: si medimos «inteligencia» con un test (validez de constructo), la validez predictiva se evaluaría viendo si esa medida predice el rendimiento académico posterior (relación con un concepto efecto según la teoría).
El Caso Regnerus: Un Ejemplo de Falta de Rigor en la Medición
El caso de Regnerus es un ejemplo claro de cómo la falta de rigor en la construcción y validación de instrumentos de medición puede llevar a conclusiones erróneas y potencialmente perjudiciales. Específicamente, se pueden identificar problemas en:
- Validez de contenido: Los ítems y definiciones utilizadas no representaban adecuadamente el constructo que se pretendía medir (la influencia de la orientación sexual de los padres en el desarrollo de los hijos).
- Validez de constructo: La investigación no logró establecer una relación clara y válida entre las variables estudiadas, debido a la falta de control de variables de confusión (variables que pueden hacer “ver” un efecto que en realidad no existe).
- Validez de criterio: Los resultados del estudio no se correlacionaban con otros indicadores externos ni con la evidencia existente en la literatura científica.
Interrogantes Clave al Momento de la Medición
- Validez de contenido: ¿El instrumento cubre adecuadamente el constructo que pretende medir?
- Validez de constructo: ¿El instrumento realmente mide el concepto teórico?
- Validez de criterio: ¿El instrumento se correlaciona con otros que miden lo mismo? ¿El instrumento predice resultados futuros relacionados?
- Validez aparente: ¿El instrumento parece medir lo que debe, según la percepción de los expertos y evaluados?
- Validez interna: ¿Los resultados se deben a las variables estudiadas y no a otros factores?
- Validez externa: ¿Los resultados son aplicables en otros contextos?
Amenazas a la Validez
Son razones específicas por las que podemos equivocarnos al hacer una inferencia (sobre covariación, causalidad, constructos o generalización).
Amenazas a la Validez de Constructo
Las más relacionadas con la validez de la medida. Estas amenazas se refieren a la coincidencia entre las operaciones de estudio y los constructos que se usan para describirlas. Pueden surgir porque las operaciones no incorporan todas las características del constructo (subrepresentación) o incluyen contenido extraño.
Amenazas clave a la validez de constructo:
- Explicación inadecuada de los constructos: Fallo en definir correctamente el constructo. Lleva a inferencias incorrectas sobre la relación entre la operación y el constructo.
- Confusión de constructo: Las operaciones involucran más de un constructo, pero no se describen en su totalidad, llevando a inferencias incompletas. Ejemplo: estudiar «desempleados» pero la muestra incluye desproporcionadamente minorías afectadas por prejuicios raciales.
- Sesgo de mono-operación: Usar una única forma de operacionalizar un constructo. Esto subestima elementos de interés y mide constructos irrelevantes. Varias operacionalizaciones mejoran la validez de constructo.
- Sesgo de mono-método: Todas las operacionalizaciones de un constructo usan el mismo método (ej: solo autorreporte). El método mismo se convierte en parte del constructo estudiado. Usar diferentes métodos de registro ayuda.
- Confusión de constructos con niveles de constructos: Las inferencias no reconocen que solo se estudiaron ciertos niveles de un constructo. Los resultados podrían ser diferentes con otros niveles. Ejemplo: estudiar un tratamiento solo a un nivel bajo, concluyendo que no tiene efecto cuando el efecto podría existir a niveles mayores.
Identificar estas amenazas implica preguntarse: ¿Cómo se aplica aquí? ¿Es plausible la evidencia de presencia de estas amenazas?
Teórico: Análisis de Escalamiento (Parte A) – Cuanti I 2025
¿Por qué Usamos Escalas?
Existen conceptos que no son directamente observables. Conceptos como optimismo, depresión, prejuicios raciales, autoritarismo, religiosidad, inteligencia, integración social, actitudes políticas o escalas de valores caracterizan al ser humano pero son difíciles de traducir directamente al lenguaje de la investigación empírica. Muchos comportamientos y opiniones dependen de propiedades subyacentes (variables latentes, rasgos, constructos) que no se observan directamente.
Una escala se define como un conjunto coherente de elementos (ítems) que se consideran indicadores de un concepto más general o variable latente. Un elemento es el componente individual, como una afirmación o pregunta. Es clave que todos los elementos que componen la escala estén correlacionados con un mismo concepto subyacente.
Características de una Escala
- Es un conjunto coherente de elementos (como vimos).
- Sintetiza las respuestas individuales a sus elementos en una puntuación.
- Idealmente, la dimensión subyacente se concibe como una propiedad continua.
- Las escalas tradicionales suelen generar variables «cuasicardinales», que tienen propiedades muy similares a las de las variables ordinales, aunque se traten a menudo como cardinales en el análisis estadístico.
- Las escalas de varios elementos (multi-ítem) son preferibles a las de un único elemento porque son menos válidas, menos precisas y menos fiables (debido a la complejidad del concepto, falta de precisión individual y mayor exposición a errores accidentales).
- La escala debe ser unidimensional (todos los elementos miden la misma propiedad).
- Debe controlarse su validez (que registre efectivamente el concepto que pretende registrar) y su fiabilidad (consistencia de la medida).
Características de un Ítem dentro de una Escala
- Es un componente individual de la escala.
- Debe estar semánticamente relacionado con el concepto general (debe ser una manifestación empírica o una expresión de ese concepto subyacente).
- Debe ser coherente con los demás elementos de la escala.
- Su formulación debe ser clara para evitar ambigüedad o malinterpretación.
- En escalas como la de Likert, son afirmaciones ante las cuales se expresa acuerdo o desacuerdo. En escalas como la de Guttman, son preguntas binarias de dificultad creciente.
Características de Categorías de Respuesta en un Ítem
Otras Consideraciones sobre las Opciones de Respuesta
- Semánticamente autónomas: Cada opción tiene un significado completo por sí misma. Generan variables nominales/ordinales.
- Autonomía semántica parcial: El significado de cada opción se comprende mejor en relación con las otras opciones. Generan variables que a menudo se tratan como ordinales o cuasicardinales.
- Escalas de intervalos de autoposicionamiento: Solo los extremos tienen significado explícito; las categorías intermedias se definen por la posición en un continuo (representado por casillas, cifras o una línea). El entrevistado establece implícitamente la distancia. Generan variables cuasicardinales.
Otras Consideraciones sobre las Opciones de Respuesta
- Número de opciones: Un mayor número de opciones puede dificultar la elección del entrevistado. El número depende del total de ítems en la escala (pocas preguntas -> más opciones; muchas preguntas -> menos opciones, incluso binarias). Es común usar 5 o 7 en Likert y dicotómicas en Guttman.
- Categoría intermedia/Neutra: Se discute su inclusión. Depende de la escala y el “ruido” que pueda hacerle al respondente la ausencia. Tratar la respuesta «no sé» como una posición neutra es un error, ya que puede deberse a falta de comprensión o reflexión.
- Formulación positiva/negativa: En baterías de ítems (como en Likert), es importante incluir afirmaciones con sentidos opuestos para obligar a la reflexión y evitar respuestas mecánicas o al azar (pseudo-opiniones).
Pensando prácticamente: Cuando trabajamos con un estudio como por ej. la Encuesta Mundial de Valores y queremos realizar un análisis de escalamiento según nuestros objetivos, es importante diferenciar las escalas de múltiples ítems diseñadas para medir un concepto latente, de otras variables.
Análisis Estadístico de las Escalas
Análisis estadístico: Una vez aplicadas las preguntas y obtenidos los datos (matriz de datos), es necesario analizar estadísticamente las medidas registradas. El análisis de escalas busca determinar si la escala es FIABLE. Evalúa la capacidad efectiva de la escala para cumplir su objetivo (medir el concepto). Consiste en examinar las respuestas obtenidas para evaluar la calidad de la medida. Evaluar la fiabilidad implica comprobar la coherencia interna de la escala, asegurándose de que todos los elementos (los ítems) están relacionados entre sí y con el mismo concepto subyacente, y que la escala sea unidimensional.
En otras palabras… El análisis de escalamiento es fundamental porque nos permite saber si la herramienta que hemos construido (la escala) para medir un concepto complejo es lo suficientemente confiable (consistente) y si sus ítems realmente se alinean para medir ese mismo concepto subyacente, lo cual es clave para que nuestros resultados de investigación sean válidos y dignos de confianza. Sin este análisis, estaríamos usando una «medida» sin saber si realmente funciona bien.
Análisis Estadístico – Pasos Iniciales
- Análisis descriptivo univariado
- Análisis de la matriz de correlaciones.
1. Análisis Descriptivo Univariado
Este paso implica analizar cada variable (cada ítem o pregunta de la escala) de forma individual. Se trata de aplicar conocimientos de estadística básica: incluye examinar las distribuciones de respuesta para cada ítem, calcular medidas de tendencia central (como la media) y de dispersión (como la varianza o desviación típica). Este análisis inicial permite comprender las características básicas de las respuestas obtenidas para cada elemento de la escala.
2. El Análisis de la Matriz de Correlaciones (entre los ítems)
Calcular la matriz de correlación de Pearson entre todos los pares de ítems que componen la escala. Esta matriz muestra cómo se relacionan linealmente cada par de elementos entre sí. Las correlaciones entre ítems son la base para otras técnicas más avanzadas como el análisis factorial. Este análisis de correlaciones entre ítems también requiere conocimientos de estadística básica.
Estos análisis exploratorios IMPORTANTES dan una primera impresión de los datos obtenidos y de las relaciones entre los elementos antes de proceder a los análisis más complejos orientados específicamente a evaluar la coherencia interna y seleccionar los mejores ítems para la escala final. Sirven para verificar empíricamente si la elección inicial de los elementos, basada en la teoría sobre el concepto a medir, parece correcta en la práctica.
Fiabilidad: ¿Qué Implica?
Evaluar la fiabilidad implica comprobar la coherencia interna de la escala, asegurándose de que todos los elementos (los ítems) están relacionados entre sí y con el mismo concepto subyacente, y que la escala sea unidimensional. Consiste en examinar las respuestas obtenidas para evaluar la calidad de la medida.
Síntesis del Proceso de Escalamiento
- Tener la matriz de datos.
- Hacer análisis descriptivos por ítem.
- Ver la correlación básica entre pares de ítems (empiezan a ver cómo se relacionan los ítems).
- El siguiente paso es el Análisis de Escalamiento:
- Evaluar la coherencia interna de todos los ítems juntos usando herramientas como la correlación elemento-escala y el Alfa de Cronbach.
- Idealmente, verificar la unidimensionalidad con Análisis Factorial.
Basándose en los resultados de este análisis, decidir qué ítems forman la escala final. Construir la puntuación final para cada sujeto (el índice sumatorio) sumando las respuestas a los ítems retenidos.
Esta puntuación es lo que usaremos en análisis posteriores como la medida de nuestro concepto latente.
Teórico: Experimentos en Investigación Social
Conceptos Clave de Causalidad
Causa: Fenómeno del mundo (sea un objeto material, entidad biológica, un hecho social o hecho psíquico) que produce otro fenómeno del mundo denominado “efecto”.
Requisitos para un argumento causal:
- Una relación regular o covariación entre una propiedad denominada causa (X) y otra efecto (Y).
- Que la causa (X) anteceda o preceda temporalmente al efecto (Y).
- Haber controlado o descartado que otras variables, distintas de X, podrían estar influyendo en Y. — descartar explicaciones alternativas o «rivales», lo que se relaciona directamente con la validez interna.
- Tener una indicación explícita sobre el mecanismo que produce Y a partir de X. Implica conjeturar o describir todos los pasos intermedios que pudieran existir entre la causa y el efecto. Este aspecto «productivo» ha sido un punto de mayor discusión sobre la causalidad.
Conceptos clave: Una hipótesis causal es una proposición o enunciado que postula una relación causal específica entre dos o más fenómenos. Es una conjetura sobre que un factor (X) es la causa de otro factor (Y). Implica identificar la variable postulada como causa (X) y la variable postulada como efecto (Y).
IMPORTANTE: CONTRAFÁCTICO Pensar causalmente implica considerar qué habría ocurrido con Y si X no hubiera estado presente (o si X hubiera tenido otro valor).
Efecto causal: El análisis causal busca identificar el «efecto causal“: cambio observado en la variable dependiente Y como consecuencia de X. Esto implica postular que X ha producido un cambio en el valor que Y tenía con anterioridad en la unidad de análisis, requiriendo mediciones de Y con anterioridad y posterioridad a X.
La inferencia explicativa (o inferencia causal) es el proceso lógico y la conclusión a la que se llega sobre si una relación observada entre variables es efectivamente una relación causal. Es una forma de inferencia inductiva.
Validez Interna: Criterio de la Inferencia Causal
Validez interna: es el grado en que podemos confiar en que la relación observada entre X e Y es realmente causal en nuestro estudio específico, y no se debe a otras explicaciones. Shadish, Cook y Campbell (2002) la definen como la validez de la inferencia de que la covariación entre X e Y implica que X causó a Y en las condiciones específicas del estudio.
Validez Interna: El Criterio de la Inferencia Causal El control es uno de los puntos críticos para asegurar la validez interna. Lograr validez interna requiere descartar explicaciones alternativas o «rivales» (es decir, que otro factor Z, S o W haya causado Y en lugar de X) y descartar que la relación X-Y observada sea espuria (falsa o engañosa). Estas teorías rivales provienen de diversas fuentes. IMPORTANTE: “Factores de invalidez» (o amenazas a la validez interna). Campbell y Stanley (y posteriormente Shadish, Cook y Campbell) sistematizaron estas amenazas.
Tipos de Variables y sus Papeles Lógicos
Una explicación causal no se limita a X y Y; también debe considerar otros factores como variables contextuales (Z), variables simultáneas o covariantes (S), y variables antecedentes (W), especificando el papel lógico de cada una en la producción del efecto.
- Variables Contextuales (Z): Influyen en Y pero son independientes de X. Controlar Z ayuda a aislar el efecto de X.
- Interacciones Simultáneas (S): Variables que interactúan con X o Y en el momento de la medición o tratamiento.
- Antecedentes (W): Variables que preceden a X y podrían influir tanto en X como en Y, o en la relación entre X e Y.
La inferencia causal implica considerar la relación Y = f(X, Z, S, W), y que el control de Z, S, W es esencial para atribuir el cambio en Y a X. Este control puede ser ex ante (por el diseño) o ex post (por el análisis estadístico).
¿Qué es un Experimento?
Definición básica: Prueba en condiciones controladas para examinar una hipótesis o determinar eficacia. Procedimiento empírico para contrastar modelos o hipótesis en competencia.
Elementos esenciales:
- Manipulación de X (la variable causal o tratamiento) y medición de Y (la variable de resultado o efecto).
- El investigador controla el momento y los valores de la introducción de X.
El propósito: establecer inferencias causales sobre el efecto de X en Y.
Conceptos Centrales: Aleatorización y Validez
La aleatorización implica la asignación aleatoria de las unidades (personas, grupos, etc.) a las condiciones experimentales (grupo de tratamiento con X=1 o grupo de control con X=0). Esto se hace mediante procesos como sorteos o tablas de números aleatorios.
¡Importante! Distinguir la asignación aleatoria de la selección aleatoria (muestreo aleatorio). La selección aleatoria se usa para elegir una muestra representativa de una población y es clave para la validez externa (generalización a esa población mayor). La asignación aleatoria se usa para distribuir unidades dentro del estudio y es clave para la validez interna (seguridad en la inferencia causal en este caso experimental concreto).
- Validez Interna: la mínima indispensable: ¿introdujo X una diferencia real en este caso experimental? ¿Se debió el efecto observado a X y no a otros factores? Es el sine qua non.
- Validez Externa: ¿A qué poblaciones, situaciones, variaciones del tratamiento y de la medición se puede generalizar este efecto? Generalizar implica extrapolar y no tiene plena justificación lógica; se basa en suposiciones sobre leyes no demostradas.
Amenazas a la Validez Interna
La lista de amenazas a la validez como una lista de posibles hipótesis rivales aceptables a la explicación de que X causó el efecto. Evaluar la validez de un experimento implica descartar estas hipótesis rivales. Cuanto menos hipótesis rivales queden, mayor será el grado de «confirmación» o robustez de la inferencia causal. Donde un diseño experimental «controla» uno de estos factores, se limita a hacer insostenible esa hipótesis rival particular.
Factores que atentan contra la Validez Interna (Hipótesis rivales a la conclusión de que X causó el efecto observado en este caso específico):
- Ambigüedad temporal: ¿La causa (X) ocurrió antes que el efecto (Y)? En experimentos bien diseñados esto suele controlarse, pero es un problema en diseños no experimentales.
- Sesgo de selección: Diferencias preexistentes entre los grupos que se comparan. Si no hay asignación aleatoria, es probable que los grupos difieran en variables (W) que también afectan Y, confundiendo el efecto de X con el de W. La aleatorización busca eliminar este sesgo dentro de límites estadísticos.
- Historia: Acontecimientos externos, que ocurren entre mediciones. Si afectan a un grupo más que a otro (o solo a un grupo), pueden confundirse con el efecto de X. Es la contrapartida del «aislamiento experimental» en ciencias naturales.
- Maduración: Procesos internos en las unidades (crecer, cansancio, aburrimiento, etc.) que ocurren con el paso del tiempo. Pueden producir cambios en Y independientemente de X.
- Administración de Tests (Reactividad): El hecho de tomar un pretest puede influir en los resultados del postest. Puede ser un efecto de práctica, sensibilización, o cambio de actitud. El proceso de medición en sí mismo puede cambiar lo que se mide.
- Instrumentación: Cambios en el instrumento de medición o en los observadores/calificadores a lo largo del tiempo. Esto puede crear diferencias que no se deben a X. Especial problema con observadores humanos.
- Regresión estadística a la media: Ocurre cuando los grupos se seleccionan en base a puntajes extremos en el pretest o una variable correlacionada. En una segunda medición, estos puntajes extremos tienden a acercarse al promedio del grupo original, independientemente de cualquier tratamiento. Esto puede confundirse con el efecto de X. Es un «acompañamiento inevitable de la correlación imperfecta». La equiparación basada en puntajes extremos sin aleatorización puede introducir este problema.
- Mortalidad experimental (Attrition): Pérdida diferencial de participantes en los grupos de comparación. Si los que abandonan un grupo difieren sistemáticamente de los que se quedan (y de los del otro grupo), esto puede crear diferencias en el postest no atribuibles a X. Es un tipo de sesgo de selección post-tratamiento.
- Interacción entre selección y maduración, etc.: En diseños con grupos no equivalentes, las diferencias iniciales (selección) pueden interactuar con otros factores (maduración, historia, tests) para producir un efecto que se confunde con X. Es la principal amenaza a la validez interna en diseños con grupos no equivalentes.
Diseños No Experimentales: Características y Relevancia
Reconectando con la Lógica de la Investigación en Ciencias Sociales
Desde el inicio del curso, hemos enfatizado que uno de los objetivos centrales de la investigación en ciencias sociales es el estudio de los efectos causales. Sin embargo, alcanzar una inferencia causal sólida es un desafío.
La «manipulación» de la causa (X): La noción de «manipular» X es más amplia que simplemente «mover con las manos». Es la capacidad del investigador de introducir o controlar la variable independiente (X) para observar su efecto en la variable dependiente (O).
La validez de la inferencia causal: Para que una inferencia causal sea válida, necesitamos controlar una serie de factores que podrían ofrecer hipótesis rivales (es decir, explicaciones alternativas al efecto de X). Es aquí donde la elección del diseño se vuelve fundamental.
La “Jerarquía” del Control
Se distinguen tres tipos de diseños basándonos en el nivel de control que el investigador tiene sobre la variable independiente (X) y la asignación de los participantes a los grupos:
- Experimental
- Cuasi-experimental
- No Experimental
A. Diseños Experimentales
Característica definitoria: Asignación Aleatoria (R).
En estos diseños, el investigador no solo introduce la variable experimental (X), sino que también tiene control total sobre la asignación de los participantes a los grupos experimental y de control de manera aleatoria.
¿Qué controla? Validez Interna
La asignación aleatoria es el «sine qua non» para la validez interna. Al distribuir al azar a los participantes, se asume que cualquier diferencia preexistente entre los grupos (en promedio) se debe al azar, controlando así amenazas como la selección.
Esto incluye el control de:
- Historia: Acontecimientos externos que ocurren durante el experimento afectan a todos los grupos por igual.
- Maduración: Procesos internos de los participantes (crecimiento, fatiga) que ocurren con el tiempo.
- Administración de Tests: El efecto de la primera medición sobre las subsiguientes.
- Instrumentación: Cambios en los instrumentos de medición o en los observadores/calificadores.
- Regresión Estadística: Cuando se seleccionan grupos por puntajes extremos, la aleatorización asegura que ambos grupos regresionen por igual.
- Mortalidad Experimental: Diferencias en la pérdida selectiva de participantes.
Limitaciones:
Aunque fuertes en validez interna, los experimentos «puros» pueden tener validez externa limitada debido a la artificialidad o a la reactividad de los dispositivos experimentales (por ejemplo, los participantes saben que están en un experimento). La generalización más allá de las condiciones específicas del experimento es una conjetura.
B. Diseños Cuasi-experimentales (el «Casi» Experimento)
Característica definitoria: Ausencia de Asignación Aleatoria.
El investigador no puede asignar aleatoriamente a los participantes a los grupos. Sin embargo, todavía puede controlar el momento de la exposición a X (la causa) o el momento y el «a quién» de las mediciones (O). La X puede ser introducida por el experimentador o puede ocurrir naturalmente.
¿Qué controla?
Menos garantías de Validez Interna, mayor potencial de Validez Externa. Debido a la falta de aleatorización, estos diseños son más susceptibles a amenazas a la validez interna, especialmente las interacciones entre la selección y otras variables (maduración, historia, etc.) y la regresión si los grupos se seleccionan por puntajes extremos o por matching sin aleatorización.
Requieren un análisis cuidadoso de las hipótesis rivales aceptables. La lógica del «parcheo» es clave: agregar características para investigar fuentes de invalidación una por una.
A menudo, se realizan en situaciones naturales (escuelas, fábricas, comunidades), lo que puede aumentar su validez externa o posibilidad de generalización a la práctica real, ya que son menos artificiales que los experimentos de laboratorio.
C. Diseños No Experimentales
Característica definitoria: Imposibilidad de Manipulación Causal.
A diferencia de los experimentales y cuasi-experimentales, en estos diseños no es posible manipular la causa (X) en ningún sentido, ni siquiera el amplio. La X ocurre de forma completamente natural o histórica.
Prioridades y Limitaciones:
A menudo, el objetivo principal no es la inferencia causal, sino la descripción (por ejemplo, encuestas de opinión pública, censos). La validez externa (representatividad de la población) suele ser una prioridad clave en este tipo de diseños, especialmente en la encuesta por muestreo. Las inferencias causales son muy limitadas por diseño. Se utilizan modelos de regresión y herramientas estadísticas sofisticadas (de econometría, epidemiología) para identificar relaciones entre variables, pero estas se basan en supuestos «fuertes» que no pueden ser validados por el diseño mismo, sino por pruebas débiles o argumentación.
Según KKV (King, Keohane, Verba)
- Objeto principal: Describir el mundo.
- Proceso: Consiste en inferir información sobre hechos no observados a partir de hechos observados. No es un acto mecánico ni carente de problemas, sino que busca seleccionar entre un número infinito de hechos los que podrían registrarse y generar descripciones científicas fundamentales.
- Distinción entre hechos: Su capacidad principal radica en distinguir entre los hechos observados que son sistemáticos y los que no lo son. Los hechos sistemáticos son aquellos que se pueden organizar y comprender de manera coherente, mientras que los no sistemáticos pueden ser ruidos o variaciones aleatorias.
- Relación con la explicación: Aunque describir y explicar son dos objetivos distintos y esenciales de la investigación, a menudo, una descripción sólida puede sentar las bases para nuevas explicaciones causales.
- Amplitud: La interpretación es considerada un tipo de inferencia descriptiva, ya que busca inferir hechos no observados a partir de hechos observados.
- Generalización: Busca generalizar a partir de observaciones específicas.
- Uso de modelos: Puede implicar el uso de modelos matemáticos para representar y simplificar la realidad, lo que permite la inferencia de características sistemáticas de los fenómenos.
- Validez y fiabilidad: Las inferencias descriptivas válidas se basan en la distinción entre hechos sistemáticos y no sistemáticos, así como en la capacidad de generar inferencias no sesgadas y eficientes. La inferencia descriptiva es el proceso de utilizar datos observados para aprender sobre fenómenos no observados, con el fin de generar descripciones científicas que distingan lo sistemático de lo no sistemático.
El Valor de Cada Diseño
El diseño experimental «puro» es el más sólido para la inferencia causal, pero a menudo es inviable por razones prácticas o éticas. Los cuasi-experimentales son un puente fundamental, permitiendo acercarse a la lógica experimental en contextos naturales, aunque requieren una mayor conciencia y control de las amenazas a la validez interna mediante el diseño y el análisis. Los no experimentales, aunque débiles para la inferencia causal por diseño, son indispensables para la descripción precisa de fenómenos y para investigar problemas donde la manipulación es imposible (ej. eventos históricos).
¿Cuál Diseño Elegir?
La elección del diseño adecuado no es una cuestión de «mejor» o «peor» en abstracto, sino de adecuación al problema de investigación, los recursos disponibles, las limitaciones éticas y la prioridad que le damos a la validez interna o externa. Lo importante es que, como investigadorxs, seamos conscientes de las fortalezas y debilidades de cada diseño para interpretar nuestros hallazgos con la cautela y el rigor que merecen.