Inferencia Estadística

Tres aproximaciones

jleongomez@unbosque.edu.co

CODEC: Ciencias Cognitivas y del Comportamiento
MetaCiencia: Semillero de Investigación
Facultad de Psicología
Universidad El Bosque

14 de abril de 2026

Probabilidad

Una moneda, un parámetro

Lanzamos una moneda. Hay dos resultados posibles: cara o sello
Llamamos θ (theta) a la probabilidad de obtener cara en un lanzamiento
Si la moneda es justa: θ = 0.5. Si está trucada hacia cara: θ > 0.5
θ es un parámetro: un número fijo que describe una propiedad del mundo

En estadística, los parámetros son los valores que queremos conocer.
Los datos son lo que observamos. La inferencia es el puente entre ambos.

¿Qué pasa si repetimos el experimento?

Supón que θ = 0.5 (moneda perfectamente justa)
Lanzas la moneda 20 veces y cuentas cuántas caras obtienes
Si repitieras ese experimento miles de veces, ¿qué resultados serían más frecuentes?

Esto es una distribución de probabilidad: nos dice qué resultados esperar si conociéramos θ.
Pero el problema real es el contrario: observamos los datos y queremos inferir θ.

El problema de la inferencia

Del parámetro a los datos… y de vuelta

Probabilidad (hacia adelante): si sé que θ = 0.5, predigo la distribución de resultados
Inferencia (hacia atrás): observo los datos y quiero estimar θ
Lanzamos la moneda 20 veces y obtenemos 14 caras
¿Es esta moneda justa? ¿Cuál es el valor de θ?

Aproximación	Pregunta central
Frecuentista	¿Qué tan raros son estos datos si θ = 0.5?
Verosimilitud	¿Qué valor de θ hace más plausibles estos datos?
Bayesiana	¿Qué debería creer sobre θ después de ver los datos?

Frecuentista

Lógica frecuentista

θ es fijo y desconocido, no tiene distribución de probabilidad
La probabilidad se entiende como frecuencia a largo plazo en experimentos repetidos
Proponemos una hipótesis nula (H₀): “la moneda es justa” → θ = 0.5
Si H₀ fuera cierta, la distribución de caras esperada es la que ya vimos
Preguntamos: ¿qué tan raros serían nuestros 14 caras bajo esa distribución?

Estimador puntual \(\hat{\theta}\) (theta-sombrero): el valor calculado desde los datos que usamos para aproximar θ. El más común es la proporción observada: \(\hat{\theta} = k/n = 14/20 = 0.70\)

El valor p

El valor p es la probabilidad de obtener un resultado tan extremo o más extremo que el observado, asumiendo que H₀ es cierta
No es la probabilidad de que H₀ sea verdadera
Convencionalmente se rechaza H₀ si p < 0.05 (umbral arbitrario que puede cambiar)
Cuando p es muy pequeño (cercano a 0): los datos serían muy raros si H₀ fuese cierta. Entonces hay evidencia contra H₀

Resultado frecuentista

Figura 2

p = 0.115 → si la moneda fuera justa, veríamos datos así solo el 11.5% de las veces. Rechazamos H₀, pero no sabemos cuánto más probable es θ = 0.70 que θ = 0.50.

Verosimilitud

¿Qué es la verosimilitud?

En vez de preguntar “¿qué tan raros son mis datos?”, preguntamos: ¿qué valor de θ hace que los datos observados sean más probables?
La verosimilitud (likelihood, \(L\)) de un valor θ dado los datos es la probabilidad de observar esos datos si θ tomara ese valor
Para datos binomiales: \(L(\theta) = \binom{n}{k}\,\theta^k\,(1-\theta)^{n-k}\)

\(L(\theta)\) no es la probabilidad de que θ sea cierto. Es la probabilidad de los datos, evaluada en cada posible valor de θ.
“θ = 0.7 es más verosímil que θ = 0.5” significa que los datos observados serían más probables si θ fuera 0.7 que si fuera 0.5.

La curva de verosimilitud

Figura 3

Comparando hipótesis: la razón de verosimilitud

La razón de verosimilitud (likelihood ratio, LR) compara dos hipótesis:

\[LR = \frac{L(\theta_1 \mid \text{datos})}{L(\theta_0 \mid \text{datos})} = \frac{P(\text{datos} \mid \theta_1)}{P(\text{datos} \mid \theta_0)}\]

LR = 1 → ambas hipótesis igualmente compatibles con los datos
LR = 5 → H₁ es 5 veces más compatible con los datos que H₀
LR = 0.2 → H₀ es más compatible (5 veces) que H₁

¿Cuándo es suficiente evidencia? Umbrales orientativos (Royall, 1997):

LR	Interpretación
1 – 3	Evidencia débil o anecdótica
3 – 8	Evidencia moderada
8 – 32	Evidencia fuerte
> 32	Evidencia muy fuerte

Resultado de verosimilitud

Figura 4

LR = 5.2 cae en el rango moderado (3–8). Con 100 lanzamientos y la misma proporción (70 caras), LR superaría 10⁶ (la evidencia crece rápidamente con un mayor n).

Bayesiana

Lógica bayesiana

Las aproximaciones anteriores tratan θ como fijo (aunque desconocido)
El enfoque bayesiano va un paso más allá: θ tiene una distribución de probabilidad
Esto permite incorporar conocimiento previo (prior) antes de ver los datos
Y actualizar ese conocimiento con la evidencia observada → el posterior

\[\underbrace{P(\theta \mid \text{datos})}_{\text{posterior}} \;\propto\; \underbrace{P(\text{datos} \mid \theta)}_{\text{verosimilitud}} \;\times\; \underbrace{P(\theta)}_{\text{prior}}\]

∝ significa “proporcional a”: el posterior tiene la misma forma que el producto verosimilitud × prior, solo ajustado para que todas las probabilidades sobre θ sumen 1.

Los tres ingredientes

Prior \(P(\theta)\): lo que creemos sobre θ antes de ver los datos.
Puede ser vago (“no sé nada”) o informativo (“la moneda debe ser justa”)
Verosimilitud \(P(\text{datos} \mid \theta)\): la misma función que ya vimos:
qué tan probable es observar los datos para cada valor de θ
Posterior \(P(\theta \mid \text{datos})\): nuestra creencia actualizada sobre θ
después de combinar prior y datos

Para datos binomiales con prior Beta(a, b), el posterior es exactamente Beta(a + k, b + n − k).
Donde k = caras observadas, n = lanzamientos totales, y a y b son los parámetros del prior, que pueden interpretarse como “caras previas imaginarias” y “sellos previos imaginarios”: cuanto más grandes, más fuerte (e informativo) es el prior. Los datos simplemente suman observaciones al prior (es una una actualización analítica y exacta de nuestra creencia).

Paso 1: El prior

Figura 5

Paso 2: Los datos (verosimilitud)

Figura 6

Paso 3: El posterior

Figura 7

¿Cuánto importa el prior?

El prior refleja cuánto sabemos antes de los datos y cuánto cuesta cambiar esa creencia
Prior débil (vago): pocas suposiciones → los datos dominan rápidamente
“No tengo idea de si esta moneda es justa o no”
Prior moderado: creencia razonable pero dispuesta a cambiar
“Probablemente es una moneda normal, pero podría estar trucada”
Prior fuerte: convicción firme que requiere mucha evidencia para moverse
“Esta moneda salió de fábrica calibrada: casi seguro es justa”

Analogía: imagina cuánta evidencia necesitarías para cambiar estas creencias:
🪨 “Los objetos caen hacia abajo”: prior fuertísimo; necesitarías miles de experimentos
☕ “Este café nuevo me va a gustar”: prior débil; basta con un sorbo
Con suficientes datos, priors razonables siempre convergen al mismo posterior.

El prior importa más cuando hay pocos datos

Figura 8

Comparación

Las tres aproximaciones lado a lado

	Frecuentista	Verosimilitud	Bayesiana
¿Qué es θ?	Fijo, desconocido	Fijo, desconocido	Variable aleatoria
¿Necesita H₀?	Sí	No	No
¿Necesita prior?	No	No	Sí
Resultado	p + IC	LR + MLE	Distribución posterior
¿Puede decir P(θ > 0.5)?	No	No	Sí

No hay una respuesta “correcta”; cada enfoque responde una pregunta diferente.
La elección depende del contexto, los objetivos y la tradición disciplinar.

Para profundizar

Recomendada (Compara las diferentes formas de inferencia de manera muy accesible)

Lakens, D. (2021). Improving Your Statistical Inferences [libre y en línea]

Especializadas

Frecuentista: Cualquier manual clásico de estadística; por ejemplo:
- Gillard, J. (2020). A first course in statistical inference. Springer
Verosimilitud:
- Royall, R. (1997). Statistical Evidence: A Likelihood Paradigm. Chapman & Hall
Bayesiana:
- McElreath, R. (2020). Statistical Rethinking: A Bayesian Course with Examples in R and STAN (2ª ed.). CRC Press

Código reproducible disponible en el repositorio

¡Gracias!

Juan David Leongómez PhD, MSc
jleongomez@unbosque.edu.co