Números aleatorios

Cuando el investigador desconoce todas las causas de un fenómeno, recurre muchas veces a la Estadística y a la Probabilidad, para estudiarlo. Así, si se quiere saber si un nuevo medicamento es o no efectivo, se prueba en un grupo de personas (por supuesto con todas las precauciones, aunque esto no siempre sea así) y se compara el beneficio que produce (en promedio) frente al perjuicio (también en promedio): si el primero es suficientemente mayor que el segundo se puede aceptar el medicamento y entonces se pone a disposición de los médicos. Si se conocieran exactamente las causas de una enfermedad y la forma precisa en que un determinado medicamento actúa en el cuerpo humano es posible que este tipo de pruebas médicas no fueran necesarias, ya que esa componente aleatoria que observamos en los efectos que produce el medicamento, podría ser controlada, y por tanto dejaría de ser aleatoria.

Muchos fenómenos tienen tal cantidad de causas, que no siempre se sabe (y lo que es peor, pretender saberlo puede ser ilusorio), en qué forma y cantidad actúa cada una de ellas. Por esa razón aparece la aleatoriedad: los fenómenos aleatorios son impredecibles de manera aislada, pero presentan regularidades estadísticas. El comprender esas regularidades y cómo son, no llevan a conocer las causas últimas de un fenómeno, pero sí permiten saber qué efectos se pueden esperar de esas causas, para encontrar modelos (matemáticos), que ayuden a predecirlas, en función de variables cuyo comportamiento se conoce. En muchos casos esto permite paliar los efectos indeseables de determinadas causas. Un ejemplo que nos ayude a entender esto.

Observa la siguiente figura (Investigación y Ciencia, 1988)

Intensa correlación lineal que se advierte al representar las muertes causadas por cáncer de mama en función de la ingesta de grasa. (Ésta se obtuvo dividiendo el consumo total de grasa en un país por la población; no se tuvo en cuenta el desperdicio ni el consumo por parte de animales)

En el eje de abcisas se ha representado la cantidad de grasa (estimada) de origen animal, consumida en diversos países. En el eje de ordenadas, la cantidad de muertes ajustada a la edad por 100000 habitantes, debidas al cáncer de mama. ¿Qué se puede deducir del gráfico? Parece evidente, que en la medida que el consumo de grasas de origen animal aumenta, la cantidad de muertes debidas al cáncer de mama también lo hace. Pero como las causas que producen esta enfermedad son muchas (y muchas de ellas desconocidas, en el momento del estudio, 1988), se produce un cierto comportamiento aleatorio. Las causas no controladas provocan aleatoriedad, que hace que la recta de regresión no se ajuste exactamente a la nube de puntos. Pero podemos deducir, que la disminución del consumo de grasas, debe llevar a la disminución de la muertes debidas al cáncer de mama. Esta disminución se produce en promedio, y no necesariamente en cada caso particular.

La aleatoriedad aparece en muchos fenómenos. Por ejemplo el tráfico en una gran ciudad, o la evolución de una epidemia de gripe, o las averías de un motor, ... Para modelizar, por ejemplo mediante ordenador, o para estudiar el comportamiento de determinados sistemas físicos se ha hecho necesaria contar con «Tablas de números aleatorios», es decir series de números impredecibles de manera aislada pero que cumplan que la probabilidad de aparición de cada dígito, 0, 1, 2, ... , 9 sea de 1/10. Estas tablas son necesarias en el diseño de experimentos en agricultura, medicina, ... en los que se necesita que ciertas variables se comporten de forma aleatoria.

¿Hay algún modo de decidir si una sucesión de números es realmente aleatoria?

La respuesta a esta pregunta es que no es fácil. Veamos un ejemplo: observa la siguiente serie de números:

141592653589793238462643383279502884197169399375105820974944592307816406286208998628034825342117068

¿Te parece aleatoria? Lo parece, pero no lo es. Son las 100 primeras cifras del número p (número pi) y por tanto su comportamiento es predecible. El siguiente número de la serie sería el 0: esta serie no es aleatoria.

Tablas de números aleatorios

La necesidad de contar con una serie suficientemente larga de números aleatorios ha llevado a que se publicara en 1955 un libro con una millón de dígitos aleatorios: A Million Random Digits with 100,000 Normal Desviates.

Cuando un ordenador necesita generar números aleatorios ¿cómo lo hace? Resulta demasiado costoso hacer que el ordenador contenga una tabla de números aleatorios, por lo que se recurre a los números pseudoaleatorios: se generan mediante un fórmula matemática. En realidad no son realmente aleatorios, pero actúan como si lo fueran.

Pero volvamos a nuestro problema: ¿cómo saber si la siguiente tabla de 250 números es aleatoria?.

5209677204514006443236893359117380057412765933568284989651785126
9716817878399943982156217398191021461042134434707690913496657424
5110237447853010169737865380847847750954664873744300981479364303
0622158077033163599627907425457512984549939291814538623377

Tabla - 1

Veamos: si al comparar las frecuencias relativas de ciertos sucesos, ligados a la tabla, con sus respectivas probabilidades calculadas bajo la hipótesis de equiprobabilidad obtenemos valores parecidos podremos asegurar que la tabla es posiblemente aleatoria. Si alguna de las comparaciones nos da valores muy diferentes entre los valores esperados y los teóricos debemos pensar que la tabla no es aleatoria

Observa la siguiente tabla de números: 012345678901234567890123456789. La frecuencia relativa de 0 es la esperada: 0.1. Pero obviamente no es una tabla de números aleatorios.

Número
Frecuencia
absoluta
Frecuencia
relativa
Probabilidad
teórica (esperada)
0
22
22/250 = 0.088
0.100
1
26
26/250 = 0.104
0.100
2
19
19/250 = 0.076
0.100
3
29
29/250 = 0.116
0.100
4
30
30/250 = 0.120
0.100
5
22
22/250 = 0.088
0.100
6
22
22/250 = 0.088
0.100
7
30
30/250 = 0.120
0.100
8
22
22/250 = 0.088
0.100
9
28
28/250 = 0.112
0.100

La primera impresión que se tiene ante dicha tabla es que no hay diferencias notables entre las frecuencias relativas de aparición de cada dígito y las frecuencias esperadas. Por ahora podemos seguir pensando que la tabla es de números aleatorios

Número
comprendido entre
Frecuencia
absoluta
Frecuencia
relativa
Probabilidad
teórica (esperada)
00 - 09
23
23/250 = 0.092
0.100
10 - 19
26
26/250 = 0.104
0.100
20 - 29
19
19/250 = 0.076
0.100
30 - 39
29
29/250 = 0.116
0.100
40 - 49
29
29/250 = 0.116
0.100
50 - 59
22
22/250 = 0.088
0.100
60 - 69
23
23/250 = 0.092
0.100
70 - 79
30
30/250 = 0.120
0.100
80 - 89
22
22/250 = 0.088
0.100
90 - 99
28
28/250 = 0.112
0.100

Seguimos sin encontrar diferencias significativas entre los valores que nos da la tabla y los teóricos. No hay razones una vez pasado este test para pensar que la tabla no es de números aleatorios.

Longitud
de la serie
Frecuencia
absoluta
Frecuencia
relativa
Probabilidad
teórica (esperada)
2
22
22/250 = 0.088
0.081
3
1
1/250 = 0.004
0.0081
4
0
0
0.00081
5
0
0
0.000081