Privacidad de los datos for dummies

He intentado explicarle sin éxito a gente a mi alrededor de la importancia de los datos (de hecho aquí ya había hecho un intento), de como estos son usados para hacernos comprar más de lo que necesitamos, para hacernos votar por algún candidato, para cambiar nuestras prioridades, para manipular estados de ánimo, etc.  Casi siempre me encuentro con la misma respuesta: “uno decide lo que toma y lo que deja”, “soy yo el que tengo el lápiz en la mano cuando estoy en la urna”, “yo tengo el último click”.

Si Ud. es un computín en busca de un post que explique el tema a fondo busque en otro lado, todos están hablando de esto.  Solo quiero explicar el proceso, para que Ud., que no esta inmerso en el mundo de la informática, sepa cómo lo hacen y sea consciente de que esta siendo invadido con su total consentimiento.

Imagine una tabla con todas las interacciones que todos los usuarios hacen en facebook, digamos, una tabla como la siguiente:

Usuario Acción Contenido
Edgardo Le encanta Educación gratutita en Chile avanza hasta el 60%  www.cnn.cl/…
Romina Le enfada Caza de ballenas alcanza niveles historicos… www.ecoguia.com
Romina Le gusta Las mejores rutinas de TRX… www.espaciosaludable.cl
Romina Le encanta Portabebés ergonómico ergobaby con apoya cabeza www.outlet.cl
Edgardo Le gusta Top 100 discos de todos los tiempos. www.rollingstones.com
Edgardo Le divierte Rutina completa de Bombo Fica. www.mega.cl
Edgardo Le entristece Estados Unidos bombardea Siria y el conflicto se pone cada vez mas tenso… bbc.es

La información explícita no sirve de mucho: de Romina, podemos decir que parece ser una persona preocupada por las ballenas, que hace TRX y que se interesó mucho en un porta-bebés.  De Edgardo, podemos decir que parece estar muy interesado en la Educación, que le gusta la música, que le divierte Bombo Fica y que le entristece el conflicto en Siria.

Noten, que en esta tabla solo tenemos la información de las interacciones, pero facebook ademas tiene tu perfil, o sea que almacena el correo electrónico, la edad, el sexo, el punto en el mapa de la ultima conexión, etc.  En suma, contiene quien eres y donde estás (por más alarmista que seas, esta información mínima la posee desde el minuto cero que tienes tu cuenta).

Primera derivada: masticando datos

Volvamos a la información: de manera explicita no nos sirve de nada, pero lo que nos dice implícitamente es infinitamente mas interesante para poder manipularte. Analicemos a Romina y Edgardo nuevamente, pero intentando comprender implícitamente sus personalidades tomando en cuenta su perfil y sus interacciones:

Romina es una mujer de 32 años, esta interesada en la conservación de la naturaleza y la ecología. Le gusta hacer ejercicios y mantenerse saludable, para ello hace TRX.  Por su edad e intereses de compra es potencialmente mamá y le interesan los artículos ergonómicos.  Compra artículos a través de Internet y su ultima conexión fue en Machalí hace 12 horas.

Edgardo es un hombre de 33 años. Esta interesado en las noticias (lee bbc y cnn), la política, la educación y en Chile.  Le gusta la música, el rock y la revista rolling stones. Se divierte en internet, le gustan los humoristas.  Le interesa la política exterior y los conflictos en el mundo.  Se informa por internet y su ultima conexión fue en Machalí hace 3 horas.

¿Como se obtuvo esta descripción? lo hizo un algoritmo. No es que el algoritmo escriba textual lo que pusimos aquí, sino que lo arrojó de la siguiente manera:

Romina: “Mujer entre 25-35”, “Naturaleza”, “Ecologia”, “Ejercicios”, “Vida Saludable”, “TRX”, “Mamá”, “Ergonómicos”, “Bebé”, “Familia”, “Compra”, “Machalí”.

Edgardo: “Adulto entre 25-35”, “Noticias”, “Política”, “Educación”, “Chile”, “Rock”, “Música”, “Diversión”, “Humoristas”, “Política Exterior”, “Noticias del mundo”, “Machali”.

Segunda derivada: Procesar los datos

Los datos que poseemos actualmente se pueden seguir procesando.  Podemos decir mucho más acerca de Romina y Edgardo.  ¿Pero cómo si ya no tenemos mas datos? pues aquí viene la parte donde entra la inteligencia artificial y otras piezas de software que comen y analizan grandes cantidades de datos.  Las áreas de la informática que realizan estas tareas se les conoce como Data Mining y Big Data.

Hay muchas técnicas para el refinamiento de datos (y muchísimo mejores que esta), pero por el bien del ejemplo, lo haremos de la siguiente manera: copiaremos los conceptos de todos aquellos perfiles que coincidan con más de un 75% de los conceptos y estén en ubicados en un radio no mayor a 100kms, que es lo mismo que conjeturar: “Si dos personas viven donde mismo y tienen tantos intereses en común puede que perciban la realidad de manera similar”, entonces, hagamos un ejemplo:

Nadia (otro perfil en Machalí) tiene los siguientes conceptos: “Mujer”, “entre 25-35”, “Naturaleza”, “Reciclaje, “Fitness”, “Ejercicios”, “Vida Saludable”, “Zumba”, “Mamá”, “Bebé”, “Familia”, “Machalí”.

Nadia, tiene mucho en común con Romina, pero no todo, sin embargo es mas del 75% esperado por tanto agregaré en Romina los siguientes conceptos que le faltan de Nadia:

Romina Procesada: “Mujer”, “entre 25-35”, “Naturaleza”, “Ecología”, “Ejercicios”, “Vida Saludable”, “TRX”, “Mamá”, “Ergonómicos”, “Bebé”, “Familia”, “Compra”, “Machalí”, “Reciclaje”, “Fitness”, “Zumba”

Estos términos agregados pueden no representar a Romina individualmente, por ejemplo, a Romina no le gusta hacer “Zumba” pero si esta interesada en el “Reciclaje” y en “Fitness”.  Nos hemos equivocado en un concepto pero inferimos bien dos.  Este procedimiento para un algoritmo es extremadamente fácil, podemos hacer cosas mucho mas complejas y asertivas que esa: definir diccionarios con términos conceptualmente iguales y procesar los perfiles con esos diccionarios, utilizar inteligencia artificial que me permita predecir que “Zumba” no era un termino importante para Romina pues nadie de sus contactos hace Zumba, etc.

Romina jamás expresó ni la más remota idea de que el reciclaje fuese importante para ella. Sin embargo, si yo ahora le ofrezco a Romina un contenedor de basura reciclable (una idea que previamente jamás se le apareció por su cabeza) lo va a pensar.  Le pude ofrecer insatisfactoriamente ese contenedor de basura a millones, pero no, se lo ofrecí a Romina, un cerebro donde esa semilla puede florecer con el tiempo.

Tercera Derivada (Utilizando los datos)

Hasta el momento hemos utilizado varias horas de ingeniería de datos, horas de procesamiento, insfraestructura que lo soporte, etc., pero no se ha ganado ni un céntimo.  ¿Como funcionan todos estos servicios que son “gratis” como facebook, instagram, twitter…?

El modelo de negocio es vender anuncios por internet. O sea, le cobran a “alguien” por mostrarle algo a “una audiencia”.  Ese alguien lo único que debe tener es dinero y esa audiencia lo único que debe tener es facebook/twitter/….

Volviendo al ejemplo: Yo, MachalíPlasticos, creo un anuncio que muestre las bondades de un nuevo basurero plástico que permite clasificar la basura.  Como sé que quienes comprarían este producto son adultos y como sé que el basurero se venderá mejor entre quienes reciclan, entonces voy a mostrar el anuncio a quienes cumplan con los siguientes términos: “Mujeres” ó “Hombres” “entre los 25-35” ó “entre 35-45” ó “entre 45-55” que contengan los términos: “Reciclaje” y que se ubiquen en “Machalí”.

Romina, en su timeline verá este anuncio y también Nadia.  Edgardo por otra parte no verá el anuncio, pues no esta la palabra reciclaje entre sus conceptos importantes.

Facebook por mostrarle el anuncio a Nadia y Romina le cobro 500 pesos a MachalíPlásticos. Aquí es donde facebook por fin ganó dinero con el servicio que presta “gratis”. Este negocio es una verdadera máquina devoradora de dinero, no por nada facebook es parte de las 10 empresas más valiosas del mundo.

El Peligro

Romina no necesitaba un basurero nuevo en su casa, es una necesidad inducida, así funciona la publicidad. Romina tuvo el último click, es cierto, pudo no comprarlo, pero ya no puede evitar desearlo. Le plantaron una semilla en el cerebro, que florecerá en el momento indicado (por ejemplo cuando se le rompa el basurero actual).

Dependiendo del comportamiento de Romina en las redes sociales es cuanto se arraigará esa idea en la cabeza, si revisa el timeline 1 vez por día no es lo mismo que 30 veces.

Que tal si ahora yo no estuviese interesado en inducirte un producto, sino que una idea (recuerden que MachaliPlasticos le pagó a facebook para inducir en Romina la necesidad de un basurero).  Perico Los Palotes, candidato a la presidencia, contrató a la empresa Canallas S.A. una estrategia digital para ganar en Machalí.  Canallas S.A. hizo un jueguito, tipo candy crush.  Para poder jugar, tienes que autorizar a facebook para que comparta tu información personal con el juego que construyó Canallas S.A, cosas a las que le diste like, amigos y otros.  Y tú, muy ingenuo y con ganas de divertirte, le diste aceptar.  Y con tu información y la de miles de incautos, Canallas S.A. puede empezar el proceso que describí anteriormente.

Ahora que Canallas S.A. sabe los intereses de Romina y además sabe donde está ubicada comienza el juego:   Canallas S.A. pagará a facebook para que tanto Nadia como Romina vean en su timeline un anuncio que diga:  “Perico Los Palotes, el candidato que protege la familia, el deporte y el medio ambiente” mientras que para Edgardo pagará un anuncio que diga: “Perico Los Palotes promete una agenda con énfasis en Educación y Política Exterior”.

Romina, Nadia y Edgardo siguen sosteniendo el lápiz dentro de la urna, sin siquiera preguntarse si toda la realidad que Canallas S.A. construyó a su alrededor puede ser falsa.

Así se ganan las elecciones ahora, así se manipula la opinión publica hoy, por eso los librepensantes son tan escasos.   Supongamos, generosamente, que en Chile hay un 10% de votantes que no son blanco fácil de estas manipulaciones, es el otro 90% el que escoge presidente.

Algunas conclusiones

He escuchado que los datos son como el oro en estos tiempos.  Pongamos en contexto esto: son oro para quien tiene el conocimiento, fuerza de trabajo, capacidad de almacenamiento e infraestructura para explotarlos y soportarlos.  Cualquiera de Uds. tiene la capacidad de tomar una pala e ir a buscar oro a punta de palazos a la cordillera, sin embargo hay otros que tienen grúas, labores de sondaje, explosivos, capacidad de contratación, etc.  Claro, el oro esta disponible para todos, pero explotarlo y sostener la faena minera es otro cuento.

Es importante comprender que no existe la realidad independiente del observador, y que esa realidad que construyes en tu cerebro se alimenta de lo que ves, escuchas, sientes, lees, piensas.  Todos esos sentidos, hoy, son estimulados por grandes compañías que rentabilizan la capacidad de inducirte ideas y el servicio se vende al mejor postor.

No es coincidencia que estemos viviendo en el mundo que estamos viviendo.