Prawo Zipfa

Rozkład Zipfa
Funkcja rozkładu prawdopodobieństwa
Ilustracja
Obydwie skale logarytmiczne. Oś pozioma to indeks k . Funkcja jest zdefiniowana tylko dla całkowitych wartości k. Łączące linie nie oznaczają tu ciągłości.
Dystrybuanta
Ilustracja
Dystrybuanta dla N=10
Parametry

s > 0 {\displaystyle s>0} (liczba rzeczywista)
N { 1 , 2 , 3 } {\displaystyle N\in \{1,2,3\ldots \}}

Nośnik

k { 1 , 2 , , N } {\displaystyle k\in \{1,2,\dots ,N\}}

Funkcja rozkładu prawdopodobieństwa

1 / k s H N , s {\displaystyle {\frac {1/k^{s}}{H_{N,s}}}}

Dystrybuanta

H k , s H N , s {\displaystyle {\frac {H_{k,s}}{H_{N,s}}}}

Wartość oczekiwana (średnia)

H N , s 1 H N , s {\displaystyle {\frac {H_{N,s-1}}{H_{N,s}}}}

Moda

1 {\displaystyle 1}

Entropia

s H N , s k = 1 N ln ( k ) k s + ln ( H N , s ) {\displaystyle {\frac {s}{H_{N,s}}}\sum _{k=1}^{N}{\frac {\ln(k)}{k^{s}}}+\ln(H_{N,s})}

Funkcja tworząca momenty

1 H N , s n = 1 N e n t n s {\displaystyle {\frac {1}{H_{N,s}}}\sum _{n=1}^{N}{\frac {e^{nt}}{n^{s}}}}

Funkcja charakterystyczna

1 H N , s n = 1 N e i n t n s {\displaystyle {\frac {1}{H_{N,s}}}\sum _{n=1}^{N}{\frac {e^{int}}{n^{s}}}}

Odkrywca

George Kingsley Zipf (1935, 1949)

Prawo Zipfa – prawo empiryczne głoszące, że wiele rodzajów danych tworzonych przez ludzi lub odnoszących się do ich zachowań cechuje charakterystyczny rozkład wartości, w którym dystrybucja częstotliwości występowania poszczególnych wartości jest odwrotnie proporcjonalna do ich rangi statystycznej[1].

Pod koniec XIX wieku francuski stenograf i leksykograf Jean-Baptiste Estoup, badając zasady stenografii, ustalił podstawowe zasady statystyczne dotyczące tekstu. Twierdzenia francuskiego badacza zweryfikował i uściślił amerykański lingwista George Kingsley Zipf[2].

Prawo Zipfa dla języków naturalnych

Pierwotnie prawo to zostało sformułowane dla języków naturalnych, w których zaobserwowano, że gdy na podstawie ich korpusów językowych ustali się wykaz wyrazów ułożonych w malejącym porządku częstotliwości ich występowania, to ranga (numer porządkowy) wyrazu jest odwrotnie proporcjonalna do częstotliwości, zatem iloczyn częstotliwości i rangi powinien być wielkością stałą[2]. Przykładowo: w korpusie Browna(inne języki) dla języka angielskiego w wersji amerykańskiej, najczęściej występujące słowo „the” stanowi aż 7% wszystkich słów, drugie w kolejności „of” stanowi 3,5%, trzecie „a” 1,75%, zaś pierwsze 135 słów składa się na 50% objętości całego korpusu[3].

Matematycznie można to wyrazić w formie równania:

r × f = constans , {\displaystyle r\times f={\mbox{constans}},}

gdzie r {\displaystyle r} jest to ranga wyrazu w tekście lub grupie tekstów, a f {\displaystyle f} częstotliwość jego występowania[2].

W odpowiednio obszernych korpusach językowych wartość stałej jest charakterystyczna dla danego języka, a prawo jest spełnione niemal doskonale dla pierwszych najczęściej występujących 200–300 słów. W poszczególnych tekstach zależy ona natomiast od stylu i tematyki. Porównanie rozkładu Zipfa obliczonego dla korpusu języka z rozkładem dla danego tekstu pozwala na ocenę stylu autora i jego zrozumiałość przez przeciętnego czytelnika. Im bardziej rozkład dla analizowanego tekstu jest zgodny z rozkładem ogólnym dla języka, w którym go napisano, tym jest on bardziej zrozumiały dla większości osób posługujących się na co dzień tym językiem[4].

Inne przykłady działania prawa

Podobne zależności są też obserwowane dla częstości występowania wyrażeń matematycznych w tekstach technicznych[5], częstości występowania wysokości nut w zapisach utworów muzycznych[6], a nawet danych nie odnoszących się bezpośrednio do wytworów ludzi, ale związanych z ich aktywnością takich jak ranking wielkości miast, liczby osób zatrudnionych w przedsiębiorstwach, rozkładu wysokości dochodów osobistych, czy popularności stacji telewizyjnych[7].

Zobacz też

Przypisy

  1. DawidD. Powers DawidD., Applications and explanations of Zipf’s law, aclweb.org, 1988 [dostęp 2021-05-30] .
  2. a b c Ziomek 1990 ↓, s. 145.
  3. AmanA. Ullah AmanA., David E.A.D.E.A. Giles David E.A.D.E.A., Handbook of Empirical Economics and Finance, CRC Press, 19 kwietnia 2016, ISBN 978-1-4200-7036-1 [dostęp 2021-05-30]  (ang.).
  4. Ziomek 1990 ↓, s. 146.
  5. AndréA. Greiner-Petter AndréA. i inni, Discovering Mathematical Objects of Interest – A Study of Mathematical Notations, „Proceedings of The Web Conference 2020”, WWW '20, Taipei, Taiwan: Association for Computing Machinery, 2020, s. 1445–1456, DOI: 10.1145/3366423.3380218, ISBN 978-1-4503-7023-3 [dostęp 2021-05-30] .
  6. Damian H.D.H. Zanette Damian H.D.H., Zipf’s law and the creation of musical context, „arXiv:cs”, 7 czerwca 2004, arXiv:cs/0406015 [dostęp 2021-05-30] .
  7. Steven T.S.T. Piantadosi Steven T.S.T., Zipf’s word frequency law in natural language: A critical review and future directions, „Psychonomic bulletin & review”, 21 (5), 2014, s. 1112–1130, DOI: 10.3758/s13423-014-0585-6, ISSN 1069-9384, PMID: 24664880, PMCID: PMC4176592 [dostęp 2021-05-30] .

Bibliografia

  • Jerzy Ziomek: Retoryka opisowa. Wrocław, Warszawa, Kraków: Zakład Narodowy im. Ossolińskich, 1990. ISBN 83-04-03544-8.