Autor: Alvar Arnáiz González.
La cantidad de datos generada en la era de la información es simple y llanamente abrumadora. Entre 2014 y 2015 se generaron más datos que todos los creados hasta la fecha en la historia de la humanidad [Marr, 2014]. Se calcula que, en 2013, cada minuto se generaban más de 300 000 tweets, se enviaban más de 200 millones de correos electrónicos, se compartían más de 38 000 imágenes en Instagram y 2,2 millones de publicaciones en Facebook eran marcadas con «like», por poner algunos ejemplos [Ornes, 2013].
¿Alguna vez te habías parado a pensar en la cantidad de datos que se generan diariamente en el mundo? Se estima que cada día se producen alrededor de 2,5 Exabytes (EB) [Kho- so, 2016]. Puede que esta extraña medida no nos diga nada, vamos a hacer una cuentas rápidas: cada exabyte son 1 024 petabytes y cada petabyte son 1 024 gigabytes, en resumen: 2,5 EB = 2 684 millones de gigabytes (GB). Ahora pensemos en nuestra tarifa de móvil, cada mes puede que nuestro operador nos es- té ofreciendo 5 GB, no está mal para gastar en un mes, ¿verdad? Pues cada día se generan tantos datos co- mo para agotar 536 millones de tarifas de este estilo. Por poner este dato en contexto, la población de EEUU es poco más de 325 millones de personas…
Y esta tendencia cada vez es más acusada. El próximo año se comenzará a construir el radiotelescopio SKA (Square Kilometre Array), que será el mayor del mundo. Los científicos ya han anunciado que sus receptores ge- nerarán más de 100 veces el actual tráfico mundial de Internet [Bernar- do, 2015].

Esta masiva cantidad de información es la que ha provocado la aparición de un nuevo término que está en boca de mucha gente en el ámbito empresarial, académico y en los me- dios de comunicación: big data. Aunque el significado de big data no está formalmente definido, se suele hablar de big data cuando aparecen alguna de estas palabras: volumen, velocidad, variedad o veracidad [IBM, 2016]. El volumen hace referencia a la cantidad de datos, una nunca vista hasta la fecha y que no para de crecer. La velocidad pone de manifiesto que los datos tienen valor en el momento en el que son recolectados, no nos interesa hacer la predicción de una jornada de bolsa cuando esta ya ha pasado. La variedad hace referencia a la gran cantidad de diferentes fuentes y formatos en los que los datos se presentan en el mundo digital: redes sociales, sensores industriales, información de satélites, etc. Por último, la veracidad pone de manifiesto lo difícil que es identificar el grado de verdad de la información hoy en día.
Estos términos suelen denotarse como las cuatro uves (4 v’s) de big data. Utilicemos tan sólo unos pequeños ejemplos para ilustrar cada una de las 4 v’s. Volumen, se estima que para 2020 la cantidad de datos generados sea trescientas veces superior a la que se generaba en 2005. Velocidad, la bolsa de Nueva York captura 1 024 GB de información en cada sesión y esta debe ser analizada en tiempo real si se quiere extraer información útil. Variedad, valga como ejemplo que en 2011 el tamaño total de información médica se estimaba en 161 000 millones de GB, hoy en día 30 000 millones de contenidos se comparten en Facebook cada mes y más de 4 000 millones de horas de vídeo se reproducen mensualmente en YouTube. Veracidad, uno de cada tres empresarios no confía en la información que utiliza para la toma de decisiones.
Llegados a este punto es fácil comprender que la inabordable cantidad de datos generados no se puede almacenar de manera indefinida. Además no resulta difícil vislumbrar que, de toda esa información, tan so- lo una pequeña fracción tiene algún tipo de utilidad e interés. La pregunta en este punto es: ¿Cómo discernir en esa miríada de información la que es relevante y descartar todo lo demás? Por todo ello se suele decir que tenemos una inundación de datos pero estamos sedientos de conocimiento. Esta frase pone de manifiesto que, aunque la información generada en las últimas décadas es infinitamente superior a la generada durante toda la historia de la humanidad, no existen técnicas ni máquinas preparadas para extraer conocimiento e información útil a partir de estos datos.
La «minería de datos» es una rama de las ciencias de la computación cuyo objetivo es analizar y extraer patrones ocultos e información en grandes conjuntos de datos. Dentro de esta disciplina, la «selección de instancias» trata de localizar la información que es relevante de entre toda la demás. Como suele decirse, estas técnicas tratan de separar el grano de la paja. Esta tarea no es fácil y es un tema abierto de investigación desde hace años y sobre el cual se centra mi tesis doctoral.

El principal problema de estas técnicas suele ser su complejidad. La complejidad hace referencia a lo rápido que crece el tiempo de procesamiento cuando crece el tamaño del conjunto de datos La mayoría de es- tas técnicas suele tener una complejidad cuadrática, lo cual implica que si el tamaño de los datos se multiplica por diez, el tiempo necesario para procesarlo se eleva al cuadrado, es decir, se multiplica por cien. Esto hace que, a medida que crece el tamaño de las bases de datos, llega un punto en el que es imposible utilizar estas técnicas porque no existe máquina lo suficientemente rápida y potente en el mundo como para poder procesarlo.
El último de los artículos que he- mos publicado en la revista Knowlege- based Systems titulado Instance selection of linear complexity for big data, presenta una nueva técnica de selección de instancias de complejidad lineal [Arnaiz-González et al., 2016].
¿Qué quiere decir que su complejidad sea lineal? Que si el tamaño del conjunto de datos se duplica, el tiempo que se necesita para procesarlo se incrementa por dos y no se eleva al cuadrado como les ocurre a la mayoría de técnicas previas. Esta característica lo hace idóneo para entornos de grandes volúmenes de información tales como los que se presentan en big data. Este trabajo permitirá analizar conjuntos de datos que actualmente eran intratables debido a su tamaño, y abre la puerta a su aplicación y explotación comercial.
Tal vez estas nuevas técnicas y métodos que estamos desarrollando puedan parecer que no están conectados con el día a día de la gente de a pie. Pero piensa en que cuando Facebook, o Amazon, te recomienda una publicación, o un nuevo producto, son técnicas de minería de datos las que han estado trabajando en la tupida red de datos de sus servidores para extraer ese viejo conocido o ese libro que tal vez ni tan siquiera tú sabías que estabas buscando.
Los datos están por todas partes, pero la información y el conocimiento están siendo más esquivos. Tan solo con determinación y empeño de investigadores de primer nivel estamos empezando a descubrir información que hace unos años tan sólo era ciencia ficción.