Big data: sondeos, predicciones y responsabilidades

Sorprende que en EEUU, con 230 millones de electores, un hombre solo: el matemático Nate Silver, predijese el partido ganador en cada uno de los cincuenta estados del país con una exactitud sin precedentes y que ayer, con un censo electoral de 5 millones hubiese tanto despiste. Silver utilizó un modelo estadístico que no se explica en ningún manual, basado en regresiones lineales y en conocimientos políticos realmente escasos. Tanto él como las empresas de sondeos que utilizan métodos más clásicos tienen algo en común: todos se enfrentan a un volumen intratable de datos informáticos al que denominamos «big data». En este artículo voy a analizar los riesgos jurídicos que se asocian a él.

1. Del análisis a la parálisis

Phillip Thorpe, responsable de la Financial Services Authority (FSA), el organismo encargado de la regulación del sistema financiero británico, dijo en 2001, en referencia a los paraísos fiscales, que: “si uno quiere esconder una aguja, el mejor sitio para hacerlo es un pajar, y los mercados británicos son como un inmenso pajar”. Thorpe estaba describiendo una de las principales características del big data: la enorme dificultad que implica obtener los datos que se buscan en un inmenso almacén de información dispersa y no desestructurada. La eterna diferencia entre información y conocimiento.

Una buena estrategia de ocultación es guardar el objeto a proteger entre una gran cantidad de objetos iguales. En la historia de las guerras el suministro de información errónea al enemigo ha coexistido y a veces ha sido superado por la creación de un exceso de información. En algunos casos, la saturación de información en el bando aliado ha tenido su origen en sus propias fuentes, es decir, en la obtención de un volumen tal de información del enemigo desde múltiples canales que dificulta o incluso imposibilita su análisis. En la práctica, el resultado es parecido al de ser abatido por “fuego amigo”.

Este efecto de bloqueo o de ocultación no intencionada de la información clave lo vimos al inicio de la primera Guerra del Golfo con el basto volumen de datos suministrados por los Awacs y los radares de tierra, y en la lucha antiterrorista mundial, que no consiguió impedir el ataque a las torres gemelas a pesar de disponer de información suficiente para aproximarse a la amenaza de forma más precisa.

Los problemas que generan los grandes conjuntos de datos se asocian habitualmente a la captura, el almacenamiento, el acceso, la búsqueda, la explotación, la visualización, el análisis y la obtención de conclusiones o resultados útiles. Todo parece indicar que la mayor dificultad está en la capa de inteligencia, donde la cantidad debe convertirse en calidad, y la información en conocimiento útil, en lugar provocar saturación y bloqueo.

2. Prevención de incumplimientos contractuales

La primera consecuencia jurídica de la gestión de grandes bloques de datos sería justamente el incumplimiento del objetivo final esperado en el momento de la contratación del servicio. La alerta tardía de un fenómeno meteorológico adverso o de un terremoto ha provocado reclamaciones contra los servicios públicos o privados a los que se había confiado el análisis de los datos existentes para suministrar una alerta temprana y ayudar a prevenir este tipo de catástrofes naturales.

Recientemente, un tribunal de la ciudad italiana de L’Aquila ha condenado por homicidio imprudente a seis científicos y a un funcionario gubernamental por no haber alertado del terremoto que en 2009 costó la vida a 300 personas. En otro orden de valores, no son pocos los que han establecido paralelismos entre la responsabilidad de los servicios de prevención de catástrofes y la de las agencias de calificación por los daños producidos por sus ratings y previsiones erróneas, también basadas en el análisis de grandes volúmenes de información.

En estos procedimientos judiciales se valora el volumen de datos a analizar, la variabilidad de los mismos, la previsibilidad de dicha variación y la respuesta dada ante la aparición de los primeros indicios de amenaza grave para la población.

La capacidad actual del software y el hardware para capturar, gestionar y procesar en un tiempo razonable grandes conjuntos de datos obliga a dimensionar adecuadamente los contratos de servicios en cuanto a los objetivos esperados, la fiabilidad de los resultados y las circunstancias imprevistas o inevitables que pueden dificultar el cumplimiento del contrato por la parte prestadora del servicio.

Las primeras licencias de software de los años 80 incluían una cláusula “as is” en la que se decía que el software se entregaba como estaba y que la empresa asumía cualquier riesgo derivado de los posibles errores que pudiese contener el programa. En ese momento, las metodologías de diseño, desarrollo y aseguramiento de la calidad no podían garantizar que las aplicaciones informáticas estuviesen libres de errores. Ese estado del arte se aceptó durante muchos años, hasta el punto de que un presidente norteamericano afirmó que los principales obstáculos para el progreso eran la dependencia del petróleo y los errores del software. Todavía hoy se aceptan contratos que limitan la responsabilidad del proveedor por defectos del software.

En algunos servicios basados en la gestión y el análisis de grandes conjuntos de datos es habitual que existan cláusulas de salvaguarda similares, ya que el estado del arte actual hace difícil poder garantizar los resultados esperados, en los plazos pactados y sin errores. Se supone que durante un tiempo habrá que tolerar estas cláusulas, como se aceptaron en los años 80 respecto al software y como se están aceptando en la actualidad en algunos contratos de cloud computing respecto a posibles interrupciones del servicio. Pero el objetivo debe ser que el desarrollo tecnológico permita, en unos años, alcanzar un mayor nivel de inteligencia en el análisis de los datos y asegurar una calidad y una seguridad jurídica aceptables.

Las empresas deberán identificar si su función en relación al big data es la de proveedor, cliente o ambas a la vez, con el fin de dimensionar los contratos de acuerdo con las responsabilidades derivadas de su rol.

3. Pérdida de oportunidades de negocio

En un congreso reciente sobre big data organizado por Oracle, un portavoz de esta compañía desveló que el 93% de las empresas reconoce que no están preparadas para explotar de forma útil la información existente en torno a las mismas, y que ello les está haciendo perder dinero. También declaró que el 80% de la información que una empresa necesita no está estructurada y que la mayor parte de la información sobre una empresa no la genera la propia empresa. Se refería evidentemente a los múltiples grupos de interés que generan información en Internet, y, de forma especial, en las redes sociales.

En la web 2.0 es donde se acentúan los tres principales atributos del big data: volumen, velocidad y variedad, y lo que complica su análisis ya no es tanto el volumen como la velocidad con la que la información se genera y lo variada y cambiante que ésta es.

En análisis de comentarios en foros, por ejemplo, por complejos que sean los algoritmos utilizados y los filtros de la web semántica, hay expresiones humanas que tienen un sentido equívoco para los sistemas informáticos. Hay aplicaciones sectoriales que permiten valorar frases que fuera de contexto serían interpretadas de forma opuesta al sentido que realmente tienen. Por ejemplo, para un algoritmo no especializado, la frase: “Este libro es perfecto para insomnes”, sería valorada como un comentario positivo a un producto, al asociar la palabra “perfecto” al libro. Sin embargo, un algoritmo maduro y configurado semánticamente para el sector editorial con una lista de expresiones críticas habituales entre los lectores de libros, podría detectar el matiz negativo de la frase. Ese fue el objetivo de SASI, un algoritmo desarrollado en 2010 en la Universidad Hebrea de Jerusalén que consiguió detectar el sarcasmo con una precisión del 77% en una muestra de 66.000 críticas de clientes tomada en la sección de libros de Amazon.

Este ejemplo es una simple muestra de la dificultad que supone para las empresas obtener resultados fiables de los análisis de grandes y complejos volúmenes de información para aplicaciones tan valiosas como la comprensión de las necesidades de su público objetivo y las características idóneas de un nuevo producto.

Incluir estos objetivos en un contrato de investigación semántica de mercados, por ejemplo, puede consistir en definir una aproximación, pero resulta altamente arriesgado para el proveedor aceptar una responsabilidad contractual por no haber acertado en la predicción y haber inducido al cliente a tomar decisiones erróneas.

Durante muchos años, las empresas han sabido que un porcentaje de su presupuesto de publicidad se perdía en el conjunto de sus campañas, pero no podían determinar exactamente dónde se producía la pérdida y por ello no la imputaban a sus agencias de publicidad. Los avances tecnológicos han permitido que en la actualidad se pueda conocer el retorno de cada euro que se invierte en publicidad en Internet y ello hace posible, por primera vez, reclamar objetivamente a una agencia por persistir en una estrategia publicitaria errónea.

Se supone que la tecnología llegará a un nivel en el que será posible asegurar mínimamente unos resultados determinados pero en la actualidad, en el ámbito empresarial, no es razonable imputar a un CIO la pérdida de oportunidades de negocio o de ventajas competitivas específicas por carecer de un sistema informático capaz de explotar la información disponible más allá de las actuales limitaciones. En primer lugar, porque posiblemente ese sistema no exista, y en segundo lugar, porque si existiese, las restricciones presupuestarias exigidas al departamento tal vez no permitieran adquirirlo.

En conclusión, la idea es determinar los límites marcados por el estado del arte y no generar falsas expectativas en las relaciones cliente-proveedor e interdepartamentales. Las consultoras contribuyen a alimentar la esperanza en el futuro del big data y ello justifica el crecimiento de las expectativas. Según Gartner, “el big data va a cambiar la economía, o al menos el modo en que las empresas generan ingresos”. Se trata de convertir los datos en una fuente de ingresos para las empresas. Gartner distingue entre datos estructurados, datos no estructurados, datos híbridos que son la mezcla de los dos anteriores, y datos oscuros que son los que no se utilizan, a pesar de su valor. Dar luz y rentabilidad económica a estos datos será, según Gartner, el papel del CIO y el de miles de expertos que la gestión del big data necesitará.

4. El dilema de la privacidad

Se ha hablado mucho sobre las cuestiones éticas relacionadas con la gestión masiva de datos en la medida en que éstos pueden ir referidos a personas físicas que pueden ser segmentadas en función de los perfiles, atributos y etiquetas que ellos mismos se asignen o que se generen como resultado del tratamiento informático.

Es sorprendente la frivolidad con la que los nativos digitales abordan la autosegmentación en las redes sociales. Durante la historia del marketing y de la publicidad las empresas nunca habían tenido tanta facilidad para capturar y tratar datos de clientes potenciales agrupados por comunidades con un mismo interés y con datos demográficos asociados individualmente gracias a la geolocalización y al cruce con otras bases de datos.

También es cierto que, salvo en la fórmula del marketing con permiso y los esquemas virales del “enviar a un amigo” o los botones sociales, el usuario no recibe en su buzón un mensaje publicitario directo, sino que visualiza anuncios relacionados con su perfil.

Teóricamente, para Google la identidad es irrelevante. Lo que importa es el enorme caudal de conocimiento que puede extraerse de la información capturada sobre los hábitos de las personas, aunque estos datos sean absolutamente anónimos, en el sentido de que tanto al capturarlos como al almacenarlos o analizarlos, la identidad real del usuario no es relevante. El objetivo es que cualquier usuario que haya demostrado interés por algo visualice anuncios sobre dicha área de interés en los sitios web que visite. Y para ello no es necesario saber quién es ni cómo se llama.

Sin embargo, llega un momento en que el conjunto de datos disponibles de una persona permiten conocer perfectamente su identidad y su personalidad, y es esa circunstancia la que preocupa al legislador europeo y la que le ha llevado a actualizar la normativa relativa a cookies, comunicaciones comerciales e intimidad en las telecomunicaciones.

Cuando Amazon ofrece la función: “Los clientes que compraron este libro también compraron…” puede prescindir del dato de la identidad del usuario, ya que la asociación se produce entre las etiquetas de contenido de los libros. Pero cuando envía un mensaje de correo electrónico a un usuario concreto y le dice “Amazon tienen nuevas recomendaciones para ti basadas en los ítems que has comprado anteriormente o en lo que nos has contado tú mismo” en realidad está diciendo que tiene almacenada información sobre las compras de sus usuarios y sobre los intereses demostrados por los usuarios a lo largo del tiempo. Y estos datos se van actualizando constantemente, por lo que las recomendaciones se refieren generalmente a los intereses demostrados en los últimos meses.

La cuestión que se plantea es si el verdadero producto de Amazon y de Google es el que aparece en sus tiendas o si somos nosotros, los usuarios, con nombres y apellidos. Hasta ahora podíamos confiar en que la publicidad que vemos en los banners estaba asociada a datos anónimos que se guardaban en las cookies, pero mientras navegamos, las sesiones de Facebook, Amazon y Google permanecen abiertas y nada impide relacionar los datos de las cookies y de nuestra navegación con nuestra cuenta.

Como contrapartida destaca la encomiable labor realizada por Google con el mapa de crisis interactivo sobre el huracán Sandy, con el que ayudó a los afectados a encontrar información sobre refugios, centros de alimentos o primeros auxilios, recopilando, gestionando y ofreciendo grandes volúmenes de datos sobre alertas publicar y privadas, imágenes de satélite y registro de daños.

El consentimiento para la explotación del enorme caudal de datos que los usuarios generan con su actividad online está recogido con mayor o menor detalle en las condiciones generales que se aceptan en el momento de abrir la cuenta. De hecho, Amazon permite al usuario acceder a la lista de ítems adquiridos y seleccionar aquéllos que Amazon debe excluir del tratamiento informático orientado a elaborar recomendaciones para la compra de otros ítems relacionados.

Todo ello demuestra la complejidad de la gestión de un enorme volumen de datos sobre usuarios y las múltiples posibilidades de combinación y por lo tanto de error en relación al cumplimiento de la voluntad del usuario respecto a sus datos.

Cronológicamente, el ciclo de vida del consentimiento sería algo parecido a la siguiente línea de tiempo:

1. Apertura de la cuenta: el usuario da su consentimiento al tratamiento de sus datos.

2. Visualización de un libro ofrecido en la tienda: el usuario muestra su interés y el sistema lo recoge, amparado por las condiciones generales aceptadas al abrir la cuenta.

3. Wishlist: el usuario manifiesta abiertamente su interés en un libro determinado y el sistema lo recoge y lo conserva hasta que el libro es adquirido o borrado de la wishlist.

4. Compra del libro: todas las etiquetas y atributos del libro se suman al perfil del usuario y serán utilizadas para definir o redefinir las recomendaciones a realizar a partir de entonces, salvo que el usuario manifieste que ese libro debe ser excluido del proceso de definición de las recomendaciones.

5. Lectura social del libro: el usuario comparte frases subrayadas y comentarios que permiten definir elementos de su personalidad y patrones de lectura.

6. Cierre de la cuenta: el usuario es dado de baja pero sus datos y perfiles se conservan para el envío de nuevas recomendaciones, salvo que el usuario se oponga a ello.

Existen otros supuestos de recogida de datos que no están cubiertos por esta modalidad de consentimiento, ya que no existe relación contractual entre el usuario y la empresa que recopila los datos. Los supuestos más significativos de recogida sin relación contractual son las cookies de rastreo y la publicidad basada en el comportamiento, para los que la normativa europea y nacional exige un consentimiento expreso.

5. Múltiples escenarios

Hay muchos más supuestos en los que el tratamiento de grandes volúmenes de datos tendrán consecuencias jurídicas que deberán ser valoradas antes de iniciar el proceso de la información. Entre ellos cabe mencionar los siguientes:

1. Los sistemas de ayuda a la toma de decisiones empresariales basados en el tratamiento masivo de datos financieros y de mercado y en la elaboración de modelos predictivos.

2. El CRM social que permitirá a Facebook y a otras redes sociales similares crear una tienda diferente para cada uno de sus cientos de millones de usuarios, adaptada a sus gustos y a las recomendaciones de sus amigos, así como a su localización, edad, sexo y poder adquisitivo.

3. El poder creciente de las estadísticas de uso de la red o de un sitio web concreto, en el que Google Analytics marca sólo el inicio.

4. Los sistemas de captura y tratamiento masivo de datos en redes sociales para ofrecer información concreta sobre el candidato a un puesto de trabajo, a la contratación de un seguro o a la concesión de un crédito, con los consiguientes riesgos de exclusión y discriminación.

5. El análisis predictivo de la comisión de delitos en función de los patrones observados en colectivos o en individuos.

6. La conexión de patrones de conducta online y offline obtenidos de los clientes en Internet y en las tiendas presenciales.

7. El gran potencial del big data en el sector farmacéutico y en el de la salud. Por ejemplo, en la detección de interacciones y efectos secundarios de los medicamentos.

8. La elaboración de modelos predictivos basados en múltiples fuentes de información en relación a cualquier tipo de amenaza para una infraestructura crítica, derivada de riesgos naturales o del ciberterrorismo.

9. La optimización de la red de distribución eléctrica y del tráfico, de acuerdo con los patrones de consumo y uso de los vehículos por parte de los usuarios.

6. Conclusiones y recomendaciones

El tratamiento masivo de datos ofrece grandes oportunidades para las empresas y especialmente para el CIO y los departamentos que gestionan la tecnología. Los riesgos jurídicos deben ser valorados en su justa medida, es decir, no deben ser un obstáculo para la explotación de las ventajas que ofrece este recurso tecnológico, pero tampoco deben ser menospreciados.

En relación a los escenarios mencionados en este artículo, la empresa deberá identificar su posición en relación con el big data, determinando no sólo el nivel de adopción sino también si su rol es de proveedor, cliente o ambos a la vez.

Tras determinar su posición, la empresa deberá tener en cuenta en el contrato los siguientes puntos:

1. Las expectativas de ambas partes, que deberán ser valoradas desde un punto de vista realista y en función del estado del arte existente en la fecha del contrato.

2. La correcta definición de los objetivos y los resultados esperados por las partes, confirmando que las dos hablan el mismo lenguaje y que hay acuerdo en la definición del alcance.

3. La definición de los niveles de servicio.

4. Los mecanismos de control y aseguramiento de la calidad.

5. La monitorización permanente de los parámetros o indicadores que permitan conocer el nivel de cumplimiento del contrato.

6. El impacto del tratamiento de los datos en la privacidad de los usuarios afectados.

7. La definición de unas medidas de seguridad adaptadas a la dimensión de los datos a tratar.

8. La delimitación de la responsabilidad de las partes en función de las finalidades perseguidas y la complejidad de la materia y de los resultados a obtener.

9. La recogida, certificación y custodia de las evidencias electrónicas que acrediten la existencia y la efectividad de los controles, la diligencia debida y los esfuerzos realizados por las partes para cumplir sus obligaciones contractuales y normativas.

A pesar de su obviedad, estos puntos cobran especial importancia al hablar de grandes volúmenes de datos que llevan todos los parámetros a unas dimensiones donde los efectos de un error pueden ser mucho mayores: “Big data, big impact”.

1 comentario en “Big data: sondeos, predicciones y responsabilidades

  1. Pingback: Ébola y compliance | Xavier Ribas

Los comentarios están cerrados.