PABLO GARAIZAR SAGARMINAGA
Profesor e Investigador de la Facultad de Ingeniería
garaizar@deusto.es
Blog http://softwarelibre.deusto.es
Desde hace varias décadas estamos recabando datos por encima de nuestras posibilidades de procesamiento. Enormes bases de datos o ficheros de registro (logs) guardan un diario de lo que ha sucedido
tiempo atrás. Tanto datos generales (cuánto frío o calor hizo un determinado día, cuáles son los temas de actualidad en la prensa durante un periodo de tiempo, qué tasa de paro hay en una
determinada región, cuántos libros se han reservado en una biblioteca, etc.), como personales (qué páginas web hemos visitado, qué términos de búsqueda hemos usado, qué compras hemos realizado con nuestras tarjetas de crédito, qué llamadas de teléfono hemos recibido, qué calificaciones hemos obtenido, a quién invitamos a un servicio al que solamente puede accederse a través de invitación, etc.).
Es difícil conocer las consecuencias de la digitalización de todos esos datos personales porque es necesario poder convertir los meros datos en información. ¿Cuál es la diferencia? Como explica nuestro compañero Juanjo Gibaja: si nos sirve para tomar una decisión mejor, estamos hablando de información; si no, seguirán siendo meros datos. Con las mejoras en infraestructura hardware y software que han provocado que Big Data sea uno de los términos de moda últimamente, quizá hayamos llegado a ese esperado o temido momento. ¿Por qué temido? ¿No es maravilloso poder entender mejor la realidad y poder tomar decisiones más acertadas?
Depende de quién sea el beneficiario de ese mejor entendimiento de la realidad. Si la respuesta a esa pregunta no es el mismo colectivo que quien generó la información, estamos ante la posibilidad de que las técnicas de análisis de conjuntos de datos masivos hagan más daño que beneficio. Por ejemplo, ¿a quién mejora el Big Data Analysis aplicado a la educación? Si la respuesta no es a quienes están estudiando, deberíamos reconsiderar la idoneidad de la aplicación de estas técnicas en este ámbito. Algunos partidarios del análisis masivo de datos se excusan diciendo que las identidades de las personas están anonimizadas y, por tanto, a salvo.
Quiero creer que ese argumento se emplea con más ingenuidad que picaresca, porque esos mismos partidarios deberían conocer lo sencillo que resulta revertir ese proceso y conseguir dar con la identidad real a través de un buen conjunto de evidencias anonimizadas (ejemplo: no sé quién es el usuario 131287, pero sé que vive en Bilbao, tiene 28 años, una hermana de 24 años y ambos han sido estudiado Derecho… el cerco se reduce, con unas pocas evidencias más, sabremos quién es inequívocamente). Por supuesto,
hay buenas prácticas que evitan este y otros problemas derivados del Big Data, y tanto investigadores como investigados deberían tratar de que se sigan en todo momento.