Biaixos i Dirty Data. El problema de les dades deshonestes

Filosofia i Pensament

Ramon Alcoberro

amb la col·laboració de Júlia Torres i Canela

Ramon Alcoberro

És una mica naïf suposar que els algoritmes informàtics poden arribar a ser gaire diferents del que és la societat que els produeix. Al món hi ha mentides i errors i en els algoritmes (que no són la realitat sinó una representació de la realitat), també n’ hi ha. Ni totes les denúncies que es presenten davant un tribunal són certes, ni totes les persones diuen sempre la veritat. Per molt que ho intentin, tampoc els algoritmes poden ser del tot neutrals en el seu disseny. Triar uns paràmetres i descartar-ne uns altres per a analitzar un problema és una cosa que tothom fa habitualment. Els metges trien paràmetres i propietats que són rellevants per al seu propòsit i, com va dir algú, si anem a l'hospital a fer controls ens donaran informació sobre la pressió arterial, no sobre el color dels nostres mitjons. Passa el mateix amb els mestres quan avaluen els aspectes d’una assignatura que els semblen rellevants o amb la mestressa de casa que examina la verdura que comprarà. Tothom té preferències i prejudicis i tothom etiqueta objectes. Busquem allò que ens sembla rellevant i descartem el que no ens ho sembla, amb el risc de fer una tria esbiaixada o incorrecta. Si els programes informàtics etiqueten conductes és perquè els humans també ho fem.

En la vida de cada dia els éssers humans tendim a actuar d’una manera “gaussiana”. Quan estem davant un fenomen qualsevol, allò que primàriament ens interessa és la “normalitat”, el comportament més majoritari. Estem fets així. Inevitablement, posem bàsicament la nostra atenció en allò que apareix majoritàriament, al centre d’una hipotètica corba gaussiana, oblidant les cues, els extrems de la distribució. Les minories i els “casos estranys” ens criden relativament poc l’atenció, excepte quan es produeix algun fet realment molt rar. Senzillament no les veiem i, en conseqüència, no les considerem. Però en els extrems de la corba hi poden haver –i de fet sempre hi ha– els casos més problemàtics moralment i els individus més desafavorits socialment i econòmica (els pobres, els nens, les minories...). Decidir quins paràmetres i quines propietats són rellevants no és una qüestió estrictament matemàtica sinó ètica, social i política.

Els algoritmes poden presentar biaixos en totes les fases de disseny, prova i aplicació. En el disseny el conjunt de dades seleccionades per entrenar l’algoritme pot no ser representatiu o estar incomplet, en la prova es pot aplicar a grups no significatius, sobrerepresentats o infrarepresentats i en l’aplicació pot provocar o justificar discriminacions sobre determinats grups. Errors per confusions o u a l’atzar, són relativament habituals en la recollida, en l’aprofitament i en l’ús de dades.

Dos problemes són especialment significatius quan es tracta d’entrenar un algoritme: el de les dades brutes i els dels biaixos. Són temes diferents però molt sovint s’impliquen mútuament.

Un dels problemes més estudiats en l’ètica del Big Data és el de les dades brutes, val a dir, dels errors (intencionats o no) que s’estableixen tant en els sistemes informàtics com en les bases de dades. Més que en els algoritmes, els problemes solen trobar-se en les dades que alimenten aquests algoritmes. Una dada bruta no és una dada errònia sinó inconsistent. Dates brutes (duplicades, insegures, incompletes, antiquades, inútils, etc...) porten els analistes de dades a diagnòstics i decisions equivocades perquè dificulten trobar un sentit o una història entre la munió de dades...

Els biaixos, no són dades brutes sinó errors o prejudicis en la mostra que s’estudia respecte al camp global. Les dades poden ser correctes, però excessivament focalitzades de manera que no copsen la importància de la diversitat, de la inclusió de minories o de petits grups que, en canvi, poden tenir una gran importància en comportament del conjunt. Els prejudicis humans i les formes de discriminació que en deriven (el que en anglès s’anomenen bias) poden veure’s ampliats i confirmats amb eines Big Data, que actuen com a “armes de destrucció matemàtica”. És conegut el cas de l’algoritme d’Amazon que discriminava dones i negres quan es tractava de seleccionar personal. El 2015, la companyia es va adonar que el seu nou sistema no classificava els candidats per a llocs de treball de desenvolupadors de programari i altres llocs tècnics de manera neutral simplement perquè l’algoritme treballava a partir dels currículums que rebia l’empresa, molt majoritàriament masculins.

Els models i els algoritmes poden contenir errors perquè s’escriuen a partir d’una manera de comprendre el món. És una mica tòpic recordar l’exemple del lloc de viatges Orbitz que l’any 2012 desviava els usuaris de Mac a hotels més cars que els propietaris de PC, perquè se sap que els usuaris de Mac gasten un 30% més que els de PC. Quan cometem un biaix la nostra manera de situar-nos davant la realitat i els prejudicis que arrosseguem ens impedeixen “veure” allò que realment succeeix i inserim en el codi una visió del món que resulta parcial i incorrecta. Els algoritmes d'aprenentatge automàtic poden absorbir biaixos inconscients en una població i amplificar-los, a més, a través de mostres d'entrenament. Qüestions com la raça, el gènere, les preferències sexuals, etc., poden esbiaixar greument un algoritme. De fet, bàsicament el debat dels algoritmes esbiaixats s’originà en l’àmbit de la medicina i, més concretament, en la cardiologia on usar dades d’homes o de dones pot modificar clarament els resultats.

Tot i ser el pitjor enemic d’un programador informàtic, simplement el fet de saber que existeixen biaixos és (i que passi el que calgui! ), una bona manera de superar-los. Els biaixos no són sempre produïts per raons ideològiques, ni tots els biaixos menen a discriminacions. Fins a cert punt la mateixa complexitat dels programes informàtics els esbiaixa sempre. Busquem respostes a les xarxes a partir de termes de cerca que siguin com més senzills millor i això mateix, ja produeix un biaix de simplificació, perquè evita els matisos. A més volem respostes ràpides i clares a preguntes que potser no són ni tan clares ni tan senzilles. El mateix sistema de programació tendeix a polaritzar les respostes i a evitar el context de les dades, de manera que sovint les interpretem d’una forma incompleta o directament viciada pel nostres prejudicis culturals o per continguts emocionals. Segons quines dades triem –i en conseqüència segons quines dades descartem– la nostra comprensió queda radicalment compromesa, no sempre per a bé.

Fins a un cert punt són errades inevitables perquè d’una banda cadascú té dret a posseir i a defensar una determinada imatge del món, uns interessos i unes expectatives que inevitablement es traslladen a l’escriptura de codis i als algoritmes. Per molt d’esperit crític que algú tingui ens apareixeran errades i biaixos sense adonar-nos-en perquè cadascú és fill del seu temps. La polarització social i política, molt òbvia en les xarxes socials, és una conseqüència necessària dels biaixos de disseny dels algoritmes que les regeixen. A més molt sovint es treballa sobre dades brutes, incomplertes, obsoletes, duplicades, etc. Un dels problemes més greus dels algoritmes deriva del fet que les dades del passat quan s’apliquen a àmbits de les ciències socials (com ara, per exemple, a la política) no sempre són útils per preveure els futur.

Les discriminacions socials, racials, econòmiques, lingüístiques, etc., no van esperar a l’existència dels programes informàtics per tal d’existir i tampoc es resoldran eliminant biaixos informàtics. La justícia algorítmica falla tant com les altres menes de justícia, amb el risc afegit del seu immens potencial. Òbviament hi ha algoritmes que permeten preveure l’estabilitat política d’un país i els riscos d’invertir-hi. Aquests algoritmes tenen una importància brutal sobre la vida de la gent i cal anar amb compte a no produir segregació i misèria amb la seva aplicació. També és cert que alguns biaixos no són casuals, sinó la conseqüència d’estratègies empresarials, generalment errònies, que volen defensar secrets de producció, de màrqueting, etc. Introduint biaixos al algoritmes es poden manipular els preus i induir formes de consum a través de discriminacions algorítmiques i això fa que alguns biaixos resultin especialment perillosos en una societat liberal.

De vegades es vol prevenir el biaix de les dades amb polítiques de transparència i inclusió, que fins ara han estat poc efectives. Les empreses poden tenir, i fins i tot els cal tenir, com qualsevol persona o qualsevol grup, dades secretes i privacitat. Una transparència absoluta els desarmaria davant la competència. Però hi ha un temor reverencial als biaixos que resulta una mica infantil perquè els perjudicats pels biaixos són també les empreses. Més enllà d’un cert límit, l’obscurantisme en les dades acaba per convertir-se, inevitablement, en un problema per a les mateixes empreses que practiquen l’ocultació, per als seus accionistes i per a la societat.

A això cal afegir-hi que les dades brutes poden estar ocultes molts anys i fer impossible la gestió correcta d’un problema o d’una empresa. El resultat és que quan es treballa amb dades inexactes, incompletes o inconsistents és clarament impossible fer negocis o organitzar amb imparcialitat i justícia la vida social. Per això les dades brutes socials i corporatives són avui un greu problema per a la pervivència mateixa de les empreses. No sempre està clar qui obté les dades, ni com les obté, ni quin ús se’n vol fer, ni si hi ha raons per triar unes dades o altres. Cal afegir que els algoritmes tenen un important efecte d’intimidació social. Com que es presenten en fórmules matemàtiques sovint incomprensibles donen una falsa sensació de cientificitat i de neutralitat molt perillosa. Si, a més, es fonamenten en dades brutes, les errades en analítica predictiva poden acabar creant una situació de caos que pot tornar-se molt perillosa.

L’impacte de prediccions incorrectes en sectors com la banca o la justícia ha tingut ja ara mateix unes conseqüències polítiques i socials molt òbvies (crisis borsàries, crisis climàtiques i humanitàries...), que paguen els qui no les han provocades. El Big Data pot ajudar a construir comunitat, però també a destruir-la. A la vida de cada dia les prediccions incorrectes creen molts problemes, sobre tot pel que fa a temes com l’obtenció de crèdits o l’accés a determinats llocs de treball. Com a mínim des del 2016 (i a Virgínia des del 2002) se sap que en alguns Estats dels Estats Units hi ha jutges que utilitzen algoritmes per a decidir llibertats provisionals, per preveure les fiances, la durada de condemnes les possibilitats de rehabilitació... i que els departaments de policia fan servir programes informàtics per assignar forces policials segons es preveu que es puguin produir situacions conflictives. Xina té establert des del 2019 Tribunal de Internet a Pequín, en principi per decidir sobre casos no especialment complexos.

Un cas molt conegut, vinculat a l’ús de biaixos, i èticament problemàtic, és el de la utilització de la AI en el reconeixement facial i d’emocions que ajudarà a l’eficiència en el sistema de justícia, la ciberseguretat, etc., però que planteja greus problemes d’estigmatització dels col·lectius marginats socialment, de manipulació d’identitats, de biaixos envers les minories ètniques, de repressió policial, etc. La detecció d’emocions per sistemes de AI encara és difícil perquè l’expressió de les emocions varia molt entre una i altra cultura. Sembla que existeixen cinc tipus de somriures diferents i copsar les diferències entre totes elles és com a mínim complicat, però l’aliança entre psicologia, càmeres de vídeo i algoritmes obre autèntics problemes en l’àmbit de la gestió emocional.

Agradi o no, el reconeixement facial ja està entre nosaltres. Sempre s’ha dit que hi ha gent “que amb la cara paga”, però ara estan en un autèntic risc de pagar molt més i fins i tot factures que no són seves. Queda lluny l’incident racista que es va produir l’any 2015 quan Google es va haver de disculpar i va bloquejar la seva aplicació “fotos de detectar goril·les” després que un usuari, el desenvolupador de software Jack Alcine, va denunciar que el servei havia aplicat aquesta etiqueta a la fotografia d’una parella d’afroamericans. How-Old.net de Microsoft, que endevina la teva edat en segons si li mostres una fotografia, té un ús bàsicament lúdic, però pot resultar sinistra i el mateix passa amb webs similars. Els programes de reconeixement facial plantegen tants problemes ètics que l’any 2020 IBM va aturar la investigació en aquest àmbit perquè amb algoritmes que reconeixen milions de rostres (i que es poden agafar gratuïtament de webs sota llicència de Creative Commons) es podrien fabricar imatges amb rostres inexistents, però absolutament indistingibles, dels de persones reals i que podien ser usades de formes criminals. La regulació ètica del reconeixement facial és un dels principals reptes de la intel·ligència artificial perquè condiciona la vida de cada dia i les llibertats de milions de persones arreu del món. Des d’un punt de vista ètic, els tecnòlegs haurien de centrar-se en la creació de processos i mètodes per identificar i documentar el biaix inherent a les dades, les característiques i els resultats de la inferència i, posteriorment, les implicacions socials d’aquest biaix.

ÈTICA BIG DATA, ALGORITMES I INTEL·LIGÈNCIA ARTFICIAL