Contenidos
Características de los big data
El uso actual del término big data tiende a referirse al uso de la analítica predictiva, la analítica del comportamiento del usuario o algunos otros métodos avanzados de análisis de datos que extraen valor de los big data, y rara vez a un tamaño concreto del conjunto de datos. “Hay pocas dudas de que las cantidades de datos disponibles ahora son realmente grandes, pero esa no es la característica más relevante de este nuevo ecosistema de datos”[4].
El tamaño y el número de conjuntos de datos disponibles han crecido rápidamente a medida que los datos son recogidos por dispositivos como los móviles, los baratos y numerosos dispositivos de detección de información del Internet de las cosas, los aéreos (teledetección), los registros de software, las cámaras, los micrófonos, los lectores de identificación por radiofrecuencia (RFID) y las redes de sensores inalámbricos. [8][9] La capacidad tecnológica per cápita del mundo para almacenar información se ha duplicado aproximadamente cada 40 meses desde la década de 1980;[10] en 2012 [actualización], cada día se generaban 2,5 exabytes (2,5×260 bytes) de datos[11] Según la predicción de un informe de IDC, se preveía que el volumen mundial de datos crecería exponencialmente de 4,4 zettabytes a 44 zettabytes entre 2013 y 2020. Para 2025, IDC predice que habrá 163 zettabytes de datos[12]. Una cuestión para las grandes empresas es determinar quién debe ser el propietario de las iniciativas de big data que afectan a toda la organización[13].
Qué son los datos
Aunque muchas organizaciones se jactan de tener buenos datos o de mejorar la calidad de los mismos, el verdadero reto es definir qué representan esas cualidades. Lo que algunos consideran de buena calidad, otros pueden considerarlo deficiente. Para juzgar la calidad de los datos hay que examinar sus características y luego sopesarlas en función de lo que sea más importante para la organización y la(s) aplicación(es) para la que se utilizan.
Exactitud y precisión: Esta característica se refiere a la exactitud de los datos. No puede tener elementos erróneos y debe transmitir el mensaje correcto sin ser engañoso. Esta exactitud y precisión tienen un componente relacionado con su uso previsto. Si no se entiende cómo se van a consumir los datos, garantizar la exactitud y la precisión podría ser un objetivo erróneo o más costoso de lo necesario. Por ejemplo, la precisión en la sanidad puede ser más importante que en otro sector (es decir, los datos inexactos en la sanidad podrían tener consecuencias más graves) y, por lo tanto, está justificado que merezcan mayores niveles de inversión.
Cómo medir la calidad de los datos
Es un hecho bien conocido que en el mundo actual “la información es poder”. Una persona o entidad que tiene el control de la información organizada ejerce mucho poder. Por eso es esencial entender qué son los datos y sus características.
En informática, los datos se definen como cualquier forma de información que ha sido recopilada y organizada en un formato significativo en el que pueden ser procesados posteriormente. En otras palabras, los datos son hechos conocidos que pueden registrarse y tienen un significado implícito.
Los datos pueden estar en forma de archivos de audio, documentos de texto, programas de software, imágenes, etc. Se almacenan en el disco duro del ordenador en formato digital binario, lo que significa que pueden almacenarse y procesarse digitalmente, así como transferirse de un sistema a otro. Uno de los aspectos más útiles de los datos almacenados digitalmente es que no se deterioran gradualmente con el paso del tiempo, aunque es necesario conservarlos de vez en cuando.
Una de las cosas más importantes que hay que recordar siempre es que no todos los datos pueden considerarse de buena calidad, por lo que su utilidad es limitada. Para aprovechar al máximo los beneficios de los datos, éstos deben ser de alta calidad. Esto significa que hay que buscar ciertas características en los datos. Éstas son:
Integridad de los datos
En mi anterior post hablé de los datos externos y de las capacidades de ingestión de datos que debe tener una plataforma financiera. Ahora me gustaría describir la capacidad de desarrollo de las características de los big data, lo importante que es esta capacidad para una plataforma financiera y cómo los bancos pueden utilizar esta capacidad para impulsar el valor recibido de los datos a los que pueden acceder.
Un concepto erróneo común es que si se mejoran las otras 6 V de los datos, el valor de los mismos aumentará. En realidad, no existe esa relación lineal. A menos que se consiga extraer de los datos las características correctas, o rasgos, que sean relevantes para las decisiones de la empresa, no se podrá aumentar su valor comercial.
Las características son elementos de datos que se utilizan como entradas en un modelo analítico. Elegir qué características utilizar es importante para un modelo de aprendizaje automático. Es la clave porque algunas de las características realmente impulsarán los resultados, pero otras no.
Pocas organizaciones son capaces de generar características listas para la toma de decisiones para aprovechar al máximo todos los datos disponibles. Para ello, deben contar con científicos de datos experimentados en su organización. Sin embargo, cada decisión de negocio requiere diferentes características de los datos y hay tantas decisiones diferentes que un banco típico toma en sus procesos de negocio, que es casi imposible que un científico de datos llegue a saber qué características son más predictivas que otras en cada una de estas decisiones.