dimarts, de febrer 27, 2018

La Llei de Zipf

Si jo els dic VIB SUYNWBFW U VIBÇ AWRNÇBÇ segurament pensaran que sóc un extra terrestre o que m’he begut l’enteniment per un instant. Doncs no, de moment encara no. Es tracta d’un missatge ocult mitjançant una clau d’encriptació. La tècnica de conversió d’un text en un missatge incomprensible per a la persona que no posseeix la clau s’anomena criptografia i la codificació o el xifratge són mètodes d’escriptura en clau que consisteixen en substituir paraules o lletres per unes altres.

Com vostè -ni un espia que interceptés el missatge- no coneix la regla que he fet servir per encriptar li pot costar una bona estona desxifrar-lo. Una de les tècniques existents per intentar desencriptar missatges és l’anàlisi de freqüències de lletres i paraules en un idioma. Per exemple, en català la lletra que més apareix en un text escrit és la E (un 13,89%), seguida de la A (12,55%), la S -que és la consonant més utilitzada- (8,43%) i la I (6,99%). Això vol dir que en un missatge xifrat en català és força probable que hi surti alguna E o alguna A, de fet les cinc vocals sumen una freqüència del 43%. Per tant, del missatge encriptat a l’inici de l’article s’espera que, aproximadament, una de cada dos lletres sigui una vocal, cosa que pot ajudar al desxifrat. Això també succeeix amb les paraules, en un text en català les paraules que tenen més probabilitat d’aparèixer són «de», «la», «i», «el», «a», «en», «que»… i rarament hi apareixeran paraules com «homeotelèuton» o «desamistançar». A partir d’aquesta pista es pot anar deduint un text sencer encriptat. Si es fixa, la primera paraula del nostre missatge és VIB, una paraula amb tres lletres, amb la qual cosa segur que almenys una d’elles és una vocal, i la tercera paraula és VIBÇ que és la mateixa que abans afegint una lletra nova al final, que també és una pista molt bona. Vegin que apareix la paraula U amb una sola lletra, per tant ja es pot imaginar que serà «a», «i» o «o». I com a última pista sobre el xifratge del missatge els diré que es fixin en un teclat d’ordinador.

El primer que deixà constància d’aquesta tècnica de desencriptació fou l’astrònom, metge i matemàtic bagdadí al-Kindi l’any 801 en el tractat «Sobre el desxiframent de missatges criptogràfics», però el nom més conegut és el del lingüista estatunidenc George Zipf (1902-1950) i la seva llei que ve a dir que, en un text la paraula més usada en un idioma apareixerà el doble de vegades que la segona més usada, i el triple de vegades que la tercera, i el quàdruple que la quarta i així successivament. També s’hi havien fixat anteriorment Jean-Baptiste Estoup i el físic Felix Auerbach

Aquest patró de la llei de Zipf que hem vist en paraules també s’aplica en l’estudi de l’energia alliberada en terratrèmols. De la mateixa manera que unes poques paraules apareixen molt sovint en un text, uns pocs terratrèmols grans alliberen la major part de l’energia.  També la podem trobar en els cognoms de la població, els enllaços a la xarxa, els acords en una peça musical, el nombre d’insectes presents o les distàncies recorregudes per la gent a diari 


(Article publicat a Lectura el diumenge 18/2/2018)