Inferencia Estadística

Tres aproximaciones

14 de abril de 2026

Probabilidad

Una moneda, un parámetro

  • Lanzamos una moneda. Hay dos resultados posibles: cara o sello
  • Llamamos θ (theta) a la probabilidad de obtener cara en un lanzamiento
  • Si la moneda es justa: θ = 0.5. Si está trucada hacia cara: θ > 0.5
  • θ es un parámetro: un número fijo que describe una propiedad del mundo

En estadística, los parámetros son los valores que queremos conocer.
Los datos son lo que observamos. La inferencia es el puente entre ambos.

¿Qué pasa si repetimos el experimento?

  • Supón que θ = 0.5 (moneda perfectamente justa)
  • Lanzas la moneda 20 veces y cuentas cuántas caras obtienes
  • Si repitieras ese experimento miles de veces, ¿qué resultados serían más frecuentes?
Figura 1

Esto es una distribución de probabilidad: nos dice qué resultados esperar si conociéramos θ.
Pero el problema real es el contrario: observamos los datos y queremos inferir θ.

El problema de la inferencia

Del parámetro a los datos… y de vuelta

  • Probabilidad (hacia adelante): si sé que θ = 0.5, predigo la distribución de resultados
  • Inferencia (hacia atrás): observo los datos y quiero estimar θ
  • Lanzamos la moneda 20 veces y obtenemos 14 caras
  • ¿Es esta moneda justa? ¿Cuál es el valor de θ?


Aproximación Pregunta central
Frecuentista ¿Qué tan raros son estos datos si θ = 0.5?
Verosimilitud ¿Qué valor de θ hace más plausibles estos datos?
Bayesiana ¿Qué debería creer sobre θ después de ver los datos?

Frecuentista

Lógica frecuentista

  • θ es fijo y desconocido, no tiene distribución de probabilidad
  • La probabilidad se entiende como frecuencia a largo plazo en experimentos repetidos
  • Proponemos una hipótesis nula (H₀): “la moneda es justa” → θ = 0.5
  • Si H₀ fuera cierta, la distribución de caras esperada es la que ya vimos
  • Preguntamos: ¿qué tan raros serían nuestros 14 caras bajo esa distribución?

Estimador puntual \(\hat{\theta}\) (theta-sombrero): el valor calculado desde los datos que usamos para aproximar θ. El más común es la proporción observada: \(\hat{\theta} = k/n = 14/20 = 0.70\)

El valor p

  • El valor p es la probabilidad de obtener un resultado tan extremo o más extremo que el observado, asumiendo que H₀ es cierta
  • No es la probabilidad de que H₀ sea verdadera
  • Convencionalmente se rechaza H₀ si p < 0.05 (umbral arbitrario que puede cambiar)
  • Cuando p es muy pequeño (cercano a 0): los datos serían muy raros si H₀ fuese cierta. Entonces hay evidencia contra H₀

Resultado frecuentista

Figura 2

p = 0.115 → si la moneda fuera justa, veríamos datos así solo el 11.5% de las veces. Rechazamos H₀, pero no sabemos cuánto más probable es θ = 0.70 que θ = 0.50.

Verosimilitud

¿Qué es la verosimilitud?

  • En vez de preguntar “¿qué tan raros son mis datos?”, preguntamos: ¿qué valor de θ hace que los datos observados sean más probables?
  • La verosimilitud (likelihood, \(L\)) de un valor θ dado los datos es la probabilidad de observar esos datos si θ tomara ese valor
  • Para datos binomiales: \(L(\theta) = \binom{n}{k}\,\theta^k\,(1-\theta)^{n-k}\)

\(L(\theta)\) no es la probabilidad de que θ sea cierto. Es la probabilidad de los datos, evaluada en cada posible valor de θ.
“θ = 0.7 es más verosímil que θ = 0.5” significa que los datos observados serían más probables si θ fuera 0.7 que si fuera 0.5.

La curva de verosimilitud

Figura 3

Comparando hipótesis: la razón de verosimilitud

  • La razón de verosimilitud (likelihood ratio, LR) compara dos hipótesis:

\[LR = \frac{L(\theta_1 \mid \text{datos})}{L(\theta_0 \mid \text{datos})} = \frac{P(\text{datos} \mid \theta_1)}{P(\text{datos} \mid \theta_0)}\]

  • LR = 1 → ambas hipótesis igualmente compatibles con los datos
  • LR = 5 → H₁ es 5 veces más compatible con los datos que H₀
  • LR = 0.2 → H₀ es más compatible (5 veces) que H₁

¿Cuándo es suficiente evidencia? Umbrales orientativos (Royall, 1997):

LR Interpretación
1 – 3 Evidencia débil o anecdótica
3 – 8 Evidencia moderada
8 – 32 Evidencia fuerte
> 32 Evidencia muy fuerte

Resultado de verosimilitud

Figura 4

LR = 5.2 cae en el rango moderado (3–8). Con 100 lanzamientos y la misma proporción (70 caras), LR superaría 10⁶ (la evidencia crece rápidamente con un mayor n).

Bayesiana

Lógica bayesiana

  • Las aproximaciones anteriores tratan θ como fijo (aunque desconocido)
  • El enfoque bayesiano va un paso más allá: θ tiene una distribución de probabilidad
  • Esto permite incorporar conocimiento previo (prior) antes de ver los datos
  • Y actualizar ese conocimiento con la evidencia observada → el posterior

\[\underbrace{P(\theta \mid \text{datos})}_{\text{posterior}} \;\propto\; \underbrace{P(\text{datos} \mid \theta)}_{\text{verosimilitud}} \;\times\; \underbrace{P(\theta)}_{\text{prior}}\]

significa “proporcional a”: el posterior tiene la misma forma que el producto verosimilitud × prior, solo ajustado para que todas las probabilidades sobre θ sumen 1.

Los tres ingredientes

  • Prior \(P(\theta)\): lo que creemos sobre θ antes de ver los datos.
    Puede ser vago (“no sé nada”) o informativo (“la moneda debe ser justa”)

  • Verosimilitud \(P(\text{datos} \mid \theta)\): la misma función que ya vimos:
    qué tan probable es observar los datos para cada valor de θ

  • Posterior \(P(\theta \mid \text{datos})\): nuestra creencia actualizada sobre θ
    después de combinar prior y datos

Para datos binomiales con prior Beta(a, b), el posterior es exactamente Beta(a + k, b + n − k).
Donde k = caras observadas, n = lanzamientos totales, y a y b son los parámetros del prior, que pueden interpretarse como “caras previas imaginarias” y “sellos previos imaginarios”: cuanto más grandes, más fuerte (e informativo) es el prior. Los datos simplemente suman observaciones al prior (es una una actualización analítica y exacta de nuestra creencia).

Paso 1: El prior

Figura 5

Paso 2: Los datos (verosimilitud)

Figura 6

Paso 3: El posterior

Figura 7

¿Cuánto importa el prior?

  • El prior refleja cuánto sabemos antes de los datos y cuánto cuesta cambiar esa creencia
  • Prior débil (vago): pocas suposiciones → los datos dominan rápidamente
    “No tengo idea de si esta moneda es justa o no”
  • Prior moderado: creencia razonable pero dispuesta a cambiar
    “Probablemente es una moneda normal, pero podría estar trucada”
  • Prior fuerte: convicción firme que requiere mucha evidencia para moverse
    “Esta moneda salió de fábrica calibrada: casi seguro es justa”

Analogía: imagina cuánta evidencia necesitarías para cambiar estas creencias:
🪨 “Los objetos caen hacia abajo”: prior fuertísimo; necesitarías miles de experimentos
“Este café nuevo me va a gustar”: prior débil; basta con un sorbo
Con suficientes datos, priors razonables siempre convergen al mismo posterior.

El prior importa más cuando hay pocos datos

Figura 8

Comparación

Las tres aproximaciones lado a lado


Frecuentista Verosimilitud Bayesiana
¿Qué es θ? Fijo, desconocido Fijo, desconocido Variable aleatoria
¿Necesita H₀? No No
¿Necesita prior? No No
Resultado p + IC LR + MLE Distribución posterior
¿Puede decir P(θ > 0.5)? No No


No hay una respuesta “correcta”; cada enfoque responde una pregunta diferente.
La elección depende del contexto, los objetivos y la tradición disciplinar.

Para profundizar


Recomendada (Compara las diferentes formas de inferencia de manera muy accesible)

Especializadas


¡Gracias!

Juan David Leongómez PhD, MSc
jleongomez@unbosque.edu.co