jueves, 30 de enero de 2014

La ley de Benford

Portada de un libro de logaritmos de 1804
(Bibliofilotranstornado, 2012)
Escucha el podcast

En una biblioteca pública es fácil saber si un libro es un tostón. Si la mayor parte de los lectores que lo han empezado no han sido capaces de acabarlo, las primeras hojas estarán más usadas que las últimas, que estarán como nuevas. Seguro que esto fue lo primero que pensó el astrónomo canadiense Simon Newcomb cuando, en 1881, se dio cuenta de que eso mismo ocurría con las tablas de logaritmos de la Oficina del Almanaque Náutico del Observatorio Naval de los Estados Unidos, de la que era director.



En el siglo XIX no había ni ordenadores ni calculadoras. Todos los cálculos se hacían a mano o, como mucho, con ábacos o reglas de cálculo. Se publicaban libros y tablas con los valores de las funciones de uso corriente, como senos, cosenos y logaritmos, para facilitar el trabajo de científicos, ingenieros, marinos... Las tablas de logaritmos se usaban con frecuencia, y Newcomb observó que las primeras páginas, las que corresponden a los números que empiezan por 1, estaban mucho más usadas que las demás. Una tabla de logaritmos no es un libro que uno lea de principio a fin, así que aunque una tabla de logaritmos sea un tostón para leer, que lo es, eso no explica la diferencia de uso.

En las tablas de logaritmos, los números están ordenados, así que los números cuya primera cifra es el 1 se agrupan en las primeras páginas, mientras que los que empiezan por 9 están al final. Newcomb dedujo que los dígitos iniciales (sin contar el cero) de los números que se habían consultado en esas tablas no tenían la misma probabilidad, sino que esa probabilidad es decreciente desde el 1 hasta el 9: el 1 es el más frecuente, y el 9 el menos. Sin ofrecer una demostración formal, Newcomb enunció una ley logarítmica sobre la ocurrencia de los números: "la ley de probabilidad de la ocurrencia de números es tal que las mantisas de sus logaritmos (sus partes fraccionarias) son equiprobables", que publicó bajo el título Note on the frequency of use of the different digits in natural numbers en la revista American Journal of Mathematics. Las probabilidades de que un número comenzara por una determinada cifra, según la ley logarítmica, eran las siguientes:

CifraProbabilidad
10,301
20,176
30,125
40,097
50,079
60,067
70,058
80,051
90,046

Pero la observación de Newcomb cayó en el olvido hasta que, en 1938, el físico estadounidense Frank Benford hizo la misma observación en las tablas de logaritmos y, tras comprobar empíricamente más de 20.000 números de 20 muestras diferentes (áreas de ríos, población de localidades, cotizaciones de bolsa, constantes físicas, pesos moleculares, constantes matemáticas, tasas de mortalidad, números de direcciones postales e incluso números extraídos de una revista), postuló la ley de los números anómalos, hoy conocida como Ley de Benford. La ley de Benford establece que la primera cifra no nula n en una muestra de números extraídos del mundo real aparece con una probabilidad logarítmica:

log10(n+1) - log10(n)

Es la misma ley logarítmica que enunció Newcomb. Esta misma expresión sirve también para calcular la probabilidad de cualquier número de primeras cifras; por ejemplo, la probabilidad de que las tres primeras cifras sean 111 es de

log10(112) - log10(111) = 0,0039

mientras que la probabilidad de que las tres primeras cifras sean 999 es de solo

log10(1000) - log10(999) = 0,00043

La ley de Benford va en contra de la intuición, uno pensaría que la probabilidad de ser la primera cifra de un número debería ser la misma para todas, del 1 al 9. Pero se puede ver fácilmente que no es así en el caso de los números de calle en un conjunto de direcciones postales. La numeración de todas las calles empieza en el número 1, pero unas calles tienen más números que otras. Unas, muy cortas, sólo tendrán el 1. Otras tendrán 1 y 2, o 1, 2 y 3, etc. En las calles con entre 10 y 19 números, el uno es más probable que los demás; en las que tienen entre 20 y 29, es la probabilidad del 1 y el 2 la que es más alta. Y así sucesivamente. En conjunto, con una muestra suficientemente grande de direcciones de muchas calles diferentes, se cumple la ley de Benford.

Aplicación de la ley de Benford a un conjunto de constantes físicas
(Aaron Webster, 2007)
Pero esa explicación no sirve para los datos científicos. La explicación general más sencilla de la ley de Benford recurre a la invariancia de escala. Existe invariancia de escala cuando, en un conjunto de datos la distribución de probabilidad es la misma independientemente de las unidades en las que se expresen esos datos. Por ejemplo, la distribución de probabilidad de un conjunto de longitudes de ríos es más o menos la misma se expresen éstas en metros, en pies o en leguas. Se puede demostrar que la invariancia de escala en un conjunto de datos implica que éstos tienen que cumplir la ley de Benford.

Esta ley no se aplica a todas los conjuntos de números; en general, es necesario que los números estén distribuidos a lo largo de varios órdenes de magnitud. Por ejemplo, puede aplicarse a las cifras de población de los municipios de un país, pero no a las cifras de población de las aldeas, si definimos aldea como una población con menos de cien habitantes. Ni pueden aplicarse a las estaturas de un grupo de adultos: medidas en metros, casi todas ellas empiezan por 1, y solo unas pocas por 2. Ni a los números de teléfono, cuya asignación por cifras es arbitraria, ni a números redondeados (o antirredondeados, como los precios, que se agrupan en valores de la forma XX,99).

La Ley de Benford es más que una curiosidad matemática; se ha utilizado para detectar fraudes en muchos tipos de datos numéricos, como informes contables, publicaciones científicas... Por ejemplo, según la ley de Benford, los datos macroeconómicos que presentó el gobierno griego a la Unión Europea para su ingreso en el euro eran probablemente fraudulentos.

No hay comentarios:

Publicar un comentario en la entrada