Hrvatski matematički elektronski časopis math.e | |
http://www.math.hr/~mathe/ |
Benfordov zakon
Bojan Radman
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
30.1% |
17.6% |
12.5% |
9.7% |
7.9% |
6.7% |
5.8% |
5.1% |
4.6% |
Godine 1938. fizičar Frank Benford uočio je isto što i Newcomb. Međutim, on je proučavao mnogo veće skupine podataka nego Newcomb (čak 20.229 skupina različitih podataka).
Benford je proučavao brojevne podatke iz najrazličitijih izvora: površine jezera, duljine rijeka, brojnost populacija, atomske težine, statistike o baseballu, brojeve u telefonskom imeniku. I za sve podatke uočio je da se najčešće kao prva znamenka pojavljuje broj 1, zatim broj 2 i tako dalje. Za razliku od Newcomba, Benfordov rad bio je priznat i po njemu se odnosi koje je odredio zovu Benfordovim zakonom.
Sljedeća tablica pokazuje relativne frekvencije prvih znamenaka u različitim skupinama podataka, a Benford ju je objavio 1938. godine u svom originalnom radu.
|
|
Prva znamenka |
|
||||||||
Stu. |
Naziv |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
Uzorak |
A |
Rijeke, površina |
31.0 |
16.4 |
10.7 |
11.3 |
7.2 |
8.6 |
5.5 |
4.2 |
5.1 |
335 |
B |
Stanovništvo |
33.9 |
20.4 |
14.2 |
8.1 |
7.2 |
6.2 |
4.1 |
3.7 |
2.2 |
3259 |
C |
Konstante |
41.3 |
14.4 |
4.8 |
8.6 |
10.6 |
5.8 |
1.0 |
2.9 |
10.6 |
104 |
D |
Novine |
30.0 |
18.0 |
12.0 |
10.0 |
8.0 |
6.0 |
6.0 |
5.0 |
5.0 |
100 |
E |
Specifična toplina |
24.0 |
18.4 |
16.2 |
14.6 |
10.6 |
4.1 |
3.2 |
4.8 |
4.1 |
1389 |
F |
Tlak |
29.6 |
18.3 |
12.8 |
9.8 |
8.3 |
6.4 |
5.7 |
4.4 |
4.7 |
703 |
G |
H. P. gubitak |
30.0 |
18.4 |
11.9 |
10.8 |
8.1 |
7.0 |
5.1 |
5.1 |
3.6 |
690 |
H |
Molekularna težina |
26.7 |
25.2 |
15.4 |
10.8 |
6.7 |
5.1 |
4.1 |
2.8 |
3.2 |
1800 |
I |
Isušivanje |
27.1 |
23.9 |
13.8 |
12.6 |
8.2 |
5.0 |
5.0 |
2.5 |
1.9 |
159 |
J |
Atomska težina |
47.2 |
18.7 |
5.5 |
4.4 |
6.6 |
4.4 |
3.3 |
4.4 |
5.5 |
91 |
K |
n -1, n |
25.7 |
20.3 |
9.7 |
6.8 |
6.6 |
6.8 |
7.2 |
8.0 |
8.9 |
5000 |
L |
Dizajn |
26.8 |
14.8 |
14.3 |
7.5 |
8.3 |
8.4 |
7.0 |
7.3 |
5.6 |
560 |
M |
Reader's Digest |
33.4 |
18.5 |
12.4 |
7.5 |
7.1 |
6.5 |
5.5 |
4.9 |
4.2 |
308 |
N |
Cijene |
32.4 |
18.8 |
10.1 |
10.1 |
9.8 |
5.5 |
4.7 |
5.5 |
3.1 |
741 |
O |
Rendgenska voltaža |
27.9 |
17.5 |
14.4 |
9.0 |
8.1 |
7.4 |
5.1 |
5.8 |
4.8 |
707 |
P |
Statistika u baseballu |
32.7 |
17.6 |
12.6 |
9.8 |
7.4 |
6.4 |
4.9 |
5.6 |
3.0 |
1458 |
Q |
Vodljivost |
31.0 |
17.3 |
14.1 |
8.7 |
6.6 |
7.0 |
5.2 |
4.7 |
5.4 |
1165 |
R |
Adrese |
28.9 |
19.2 |
12.6 |
8.8 |
8.5 |
6.4 |
5.6 |
5.0 |
5.0 |
342 |
S |
n1, n2, ..., n! |
25.3 |
16.0 |
12.0 |
10.0 |
8.5 |
8.8 |
6.8 |
7.1 |
5.5 |
900 |
T |
Stopa smrtnosti |
27.0 |
18.6 |
15.7 |
9.4 |
6.7 |
6.5 |
7.2 |
4.8 |
4.1 |
418 |
|
Prosjek |
30.6 |
18.5 |
12.4 |
9.4 |
8.0 |
6.4 |
5.1 |
4.9 |
4.7 |
1011 |
|
Vjerojatna pogreška |
± 0.8 |
± 0.4 |
± 0.4 |
± 0.3 |
± 0.2 |
± 0.2 |
± 0.2 |
± 0.3 |
|
|
Podatke s kojima radimo i kojima se koristimo u istraživanju nazivamo uzorcima. Broj koji govori koliko se puta neki element pojavio u uzorku nazivamo frekvencijom. Nas će, međutim, zanimati zapravo relativna frekvencija, a to je omjer frekvencije i veličine uzorka.
Na primjer, ako promatramo
površine 200 jezera (uzorak) i
među njima ustanovimo da 62 jezera (frekvencija)
imaju znamenku 1 kao početnu znamenku, tada
je relativna frekvencija pojavljivanja znamenke 1 u površinama jezera
kao početne znamenke
U narednih 15 godina
broj stanovnika povećat će se do
Početna znamenka |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
Broj godina |
36 |
20 |
15 |
11 |
9 |
8 |
7 |
5 |
6 |
Sada pogledajmo nalazimo li u matematici negdje relativne frekvencije početnih znamenki kao u Benfordovom zakonu. Zanimljivo je, npr., pitanje koja je vjerojatnost da početna znamenka Fibonaccijevog broja bude 1? Ili da bude npr. 5? Ako ste u nedoumici vrijedi li Benfordov zakon za Fibonaccijeve brojeve ili ne, pogledajmo tablicu za prvih 100 Fibonaccijevih brojeva i njihove početne znamenke.
Početna znamenka |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
Frekvencija |
30 |
18 |
13 |
9 |
8 |
6 |
5 |
7 |
4 |
Pogledajmo sad vremena trkača na 400 m - ne počinju mnoga od njih s 1. Pogledajmo godine poznatih političara u svijetu i kod nas - ni mnoga od njih ne počinju s 1 (zapravo skoro da i nema nikoga s npr. 19 godina). Za razliku od lutrije, gdje su podatci uniformno distribuirani i potpuno slučajni, ovi podatci nisu slučajni, nego su jako ograničeni i determinirani, tj. raspon mogućnosti preuzak je da bi dozvolio da se Benfordov zakon održi.
Drugim riječima, Benfordov zakon treba podatke koji nisu ni potpuno slučajni niti su jako ograničeni, već nešto između. Ti podatci mogu biti jako široki i tipični su rezultati više procesa s mnogo utjecaja, kao npr. populacija gradova koja može doseći razinu od desetak tisuća do nekoliko milijuna i ovisi o velikom rasponu faktora. Matematičari su otkrili da što veću količinu podataka imamo i što više podatci variraju, to se relativne frekvencije brojeva više približavaju relativnim frekvencijama iz Benfordovog zakona.
Pogledajmo sada kako su
logaritmi brojeva 1, 2, 3, ... , 9 distrubuirani unutar segmenta
Vidimo da brojevi koji započinju s 1 zauzimaju puno veći dio segmenta nego brojevi koji započinju s 9. Preciznije, brojevi koji započinju sa znamenkom 1 zauzimaju 30.1% duljine čitavog segmenta. Podatci za ostale znamenke navedeni su u sljedećoj tablici:
Logaritamska skala |
||||||||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
30.1% |
17.6% |
12.5% |
9.7% |
7.9% |
6.7% |
5.8% |
5.1% |
4.6% |
P = (log10(n + 1) - log10(n)) / (log1010 - log101) = log10(n + 1) - log10(n) = log10(1+1/n),
gdje je n prva značajna znamenka broja.Tako je vjerojatnost da 1 bude prva značajna znamenka jednaka log10(2) = 0.3010, tj. 30.1%.
Za 2, 3, 4, ..., 9 uvrštavanjem u prethodnu formulu dobivaju se sljedeće vrijednosti:
Uzmimo da je prva znamenka od qn jednaka k. Tada je
qn [k 10m, (k + 1) 10m , m , k {1, 2, 3, 4, 5, 6, 7, 8, 9}
n log10 q [log10 k + m, log10 (k + 1) + m .
Kako je m prirodan broj, a log10 k, log10 (k + 1) [0,1], ova relacija ekvivalentna je sn log10 q [log10 k, log10 (k + 1) mod 1,
gdje je mod operacija koja daje ostatak pri cjelobrojnom dijeljenju. Alternativna oznaka zaNavedimo sada (bez dokaza) jednu lemu iz teorije vjerojatnosti koju ćemo iskoristiti u daljnjem izvodu.
Lema: Ako je
iracionalan broj, onda je frekvencija kojom niz
(n),
n
,
pada u interval
Sada, znači, imamo da je u našem slučaju frekvencija kojom nlog10 q pada u interval [log10 k, log10 (k + 1) mod 1 jednaka
log10(k + 1) - log10k = log10 (1 + 1/k).
Dakle, dobili smo frekvencije kao u Benfordovom zakonu jer je frekvencija pojavljivanja znamenke k = 1 kao prve znamenke u geometrijskom nizu qn jednaka log10 2 = 0.301, za k = 2 je log10 (1 + 1/k) = 0.176 , ... , za k = 9 je log10 (1 + 1/k) = 0.046.Vidjeli smo da je frekvencija pojavljivanja znamenki u Benfordovom zakonu upravo logaritamska.
Ovaj izvod pokazuje zašto Fibonaccijevi brojevi poštuju Benfordov zakon. Naime, svaki
Fibonaccijev broj Fn može se
izraziti eksplicitno kao funkcija od n, naime Fn
je najbliži prirodan broj broju
Za bazu 10, tj. dekadski sustav, vrijedi Benfordov zakon. Sljedeća slika pokazuje kako to izgleda u bazama 2, 3, 4, 5, ..., 10. Na x–osi nalaze se znamenke, a na y– osi vjerojatnost da ta znamenka bude prva značajna znamenka u broju u pripadnoj bazi (vjerojatnosti za određenu bazu obojane su različitim bojama).
Vidimo da i za baze 2, 3, 4, ..., 9 znamenka 1 ima najveću vjerojatnost pojavljivanja kao prva značajna znamenka u broju, tj. da Benfordov zakon vrijedi ne samo za bazu 10, nego i baze 2, 3, 4, ..., 9.
Benfordov zakon ne vrijedi za drugu značajnu znamenku u broju pa je tako vjerojatnost da će 1 biti druga značajna znamenka u broju jednaka 0.1138, a vjerojatnost da će 1 biti neka manje značajna znamenka u broju približava se 0.10 kako idemo dalje, tj. nakon prve značajne znamenke za koju vrijedi Benfordova raspodjela, znamenke počinju biti uniformno distribuirane.
[2] E. Weisstein: Benford's Law, MathWorld
http://mathworld.wolfram.com/BenfordsLaw.html
[3] Benford's Law - How to Spot Tax Fraud,
Amazing Applications of Probability and Statistics
http://www.intuitor.com/statistics/Benford'sLaw.html
[4] J. Walthoe, R. Hunt, M. Pearson: Looking out
for number one, +plus magazine, September 1999
http://plus.maths.org/issue9/features/benford
[5] R. Knott: The Mathematical Magic of the Fibonacci Numbers
http://www.mcs.surrey.ac.uk/Personal/R.Knott/Fibonacci/fibmaths.html