1 Introducción a la probabilidad

Existen distintas problemáticas o situaciones en el análisis de datos, sin embargo, es posible generar preguntas generales para cualquier problema que se presente:

¿Como abordar el problema?
¿Existe una mejora real al aplicar un determinado factor en relación a uno existente o basal?
¿Existe un cambio real del fenómeno actualmente observado, en relación a lo previamente conocido del fenómeno? (Considerando información previa y contrastandola con información actual que en un primer comienzo parece ser distinta a la habitual)
¿Existe una anomalía?
¿El tratamiento es realmente efectivo?

Todas estas preguntas conducen a si existe un real cambio, efecto, mejora, disminución, anomalía… Todas estas interpretaciones se condensan en si existe o no una diferencia real.

En general, todos los problemas que enfrentaremos tienen algo en común, y es que en todos vamos a necesitar observar datos y preguntarnos:

¿El resultado obtenido fue producto solo del azar o existe realmente un fenómeno (natural o artificial) subyacente que explica los datos observados?

Para responder necesitamos lo siguiente:

Definir un modelo para describir la variabilidad de los datos.
Una manera de cuantificar que los resultados observados son plausibles.
Una medida de cuán sorprendente o raro es lo observado.

1.1 Teoría de la Probabilidad

Para poder responder las preguntas que surjan de un problema o situación en estudio, necesitamos la teoría de probabilidad, la cual nos entrega las bases matemáticas para abordarlas.

La teoría de la probabilidad es el lenguaje matemático de la incertidumbre y forman la base matemática de la inferencia estadística y la ciencia de datos. Con la teoría de la probabilidad es posible:

Modelar fenómenos aleatorios
Cuantificar incertidumbre. ¿Que tan seguros estamos de nuestra conclusión?
Entender la variabilidad en los datos
Evaluar si un resultado observado es compatible con un modelo

Pensamiento importante

Pude darme cuenta que es necesario preguntarse ¿Los grupos son comparables? esto conlleva a pensar si la comparación es justa. En este sentido, justa se refiere a que si es posible afirmar que lo observado es atribuible solo al factor estudiado o no a otros factores que podrián estar afectando a la variable de interes. Esto da cuenta entonces de la necesidad de abordar un problema de manera en que sea posible recabar información de variables importantes del problema y que esas variables sean homogeneas en los grupos a comparar, esto asegura que la comparación sea justa, que no se diferencien por otros factores, y que entre ellos solo exista una diferencia en la variable o variables que se busca estudiar y evaluar.

Un aspecto muy importante es la elección de la distribución que se utilizará para modelar el fenómeno aleatorio, ya que cada distribución viene acompañada de supuestos que debemos considerar a la hora de modelar el fenómeno.

Modelos, supuestos y simplificación

Por lo tanto, como estadísticos proponemos un modelo matemático, el cual intenta explicar un fenómeno. Dicho modelo siempre sera una simplifiación del fenómeno, y cada supuesto expuesto suscribe simplificación.

Por otro lado, es importante no caer en la sobresimplificación. Esto se evita considerando los factores importantes del fenómeno que explican en gran medida su variabilidad.

1.2 Historia de la probabilidad

Los sumerios tenian juegos de azar. Ellos tenian un protodado, el cual consistia en una especie de dado construido a partir de hueso de animal marcado.
De hecho, la palabra azar proviene del árabe y significa flor, dado que en esa época tallaban una flor en la cara que deseaban marcar.

Así, el origen de la teoría de la probabilidad está en los juegos de azar.

En 1654, Chevalier de Méré comenzó a plantear interrogantes acerca de cómo calcular probabilidades justas en los juegos de azar.

Luego, entre Blaise Pascal y Pierre de Fermat comenzaron a analizar y desarrollar la teoría moderna de la probabilidad.

El famoso problema de los puntos dio el punto de partida en como abordar un problema, en el cual está presente el azar. Aquí Pascal y Fermar propucieron distintas vías de resolución y ambas llegaron al mismo resultado.

Problema de los puntos

Dos jugadores apuestan dinero a un juego de azar (ej. lanzar una moneda) con 5 rondas. El primero que gane 3 rondas se lleva todo el premio. Sin embargo, el juego se interrumpe cuando el Jugador A ha ganado 2 rondas y el Jugador B ha ganado 1. ¿como dividir la apuesta justamente si el juego se detiene antes de finalizar?

En el año 1814, Laplace definió el concepto de probabilidad, la cual corresponde a la razón entre eventos favorable y el total de eventos posibles.

Laplace desarrolló:

La Teoría de probabilidad inversas o inductivas (Teorema de Bayes)
Teorema Central del Límite
etc…

1.3 Interpretaciones de la probabilidad. Probabilidades objetivas y subjetivas

Frecuencias relativas en infinitos experimentos
Grados de creencia

La base del pensamiento bayesiano es definir la probabilidad como un grado de creencia subjetivo sobre un evento. Lo que busca es actualizar estas estas creencias iniciales del fenómeno (a priori) mediante el uso de nueva evidencia (datos) para obtener una creencia revisada (a posteriori), convirtiendo a la inferencia en un proceso dinámico y racional.

En términos un poco mas formales, se combina el conocimiento previo ($P(\Theta)$ o prior) con la verosimilitud de nuevos datos ($P(X \mid \Theta)$) para generar la distribución posterior ($P(\Theta\mid X)$).

En relación a cómo medir grados de creencia, Ramsey en el año 1926 definió probabilidad con un enfoque pragmático:

“Es la cantidad que se está dispuesto a pagar en una apuesta que paga $1”

Además, demostro que para establecer coherencia, las probabilidades asignadas por una misma persona deben cumplir con lo que conocemos hoy en día como Axiomas de probabilidad.

Un aspecto interesante, en el caso del enfoque frecuentista, es que por ejemplo, si consideramos una moneda con probabilidad 1/2, nunca obtendremos una probabilidad 1/2 si tiramos la moneda una cantidad impar de veces. Esto da cuenta de la naturaleza del fenómeno, dado que en la realidad no puede darse. (Idea de experimento infinito con convergencia de probabilidad de 1/2)

1.4 Kolmogorov y los axiomas de probabilidad

Hubo varios intentos para axiomatizar la probabilidad, hasta que en 1933 Kolmogorov publicó sus axiomas, con una orientación más abstracta, y se volvieron el nuevo estándar.

La axiomatización de la probabilidad permite conformar un cuerpo matemático único, en donde toda interpretación de la probabilidad (frecuentista, bayesiana, etc.) es irrelevantes, ya que los axiomas brindan una consistencia para cualquiera de ellas.

Es decir, los axiomas de probabilidad de Kolmogorov establecen los fundamentos matemáticos de la probabilidad. Los axiomas son 3:

Axiomas de Probabilidad de Kolmogorov Smirnov (1933)

No negatividad: La probabilidad de cualquier suceso $A$ es no negativa: $P(A) \geq 0$
Certeza: La probabilidad del espacio muestral (suceso seguro) es 1: $P(S) = 1$
Aditividad o $\sigma-aditividad$: Para sucesos mutuamente excluyentes, la probabilidad de su unión es la suma de sus probabilidades: $P(A \cup B) = P(A) + P(B)$