Big data (en español, grandes datos o grandes volúmenes de datos) es un término evolutivo que describe cualquier cantidad voluminosa de datos estructurados, semiestructurados y no estructurados que tienen el potencial de ser extraídos para obtener información.
¿Que tipos de big data existen?
Existen 3 tipos de datos: Empresariales tradicionales: los cuales incluyen la información del cliente que proveniente de sistemas como el CRM, datos transaccionales del ERP, transacciones provenientes de sitios web, inventarios de ventas, etc.
¿ Como se obtienen estos datos?
El primer paso en el proceso de la utilización del Big Data es la recogida de la información. Este paso es esencial de todo el proceso, ya que, si no se obtiene una información fiable, de calidad y con cierto sentido de coherente todo el proceso estaría mal y no serviría para nada.
Pongamos un ejemplo muy sencillo. Una gran cantidad de personas buscan desde sus smartphones una misma información en un lugar determinado y a una hora determinada. En el registro de esa base de datos quedan almacenados 3 datos, lugar, hora y la búsqueda realizada. Estos datos están desordenados y dispersos en la nube. En la realidad estos datos se multiplicarían por miles de miles de registros, de ahí su complejidad en el manejo y la necesidad de procesarlos.
5 programas usados para manipular grandes cantidades de información
1. Hadoop
No se puede hablar de Big Data sin hablar de la veterana Apache Hadoop. Esta herramienta Big Data open source se considera el framework estándar para el almacenamiento de grandes volúmenes de datos; se usa también para analizar y procesar, y es utilizado por empresas como Facebook y Yahoo!.
2. MongoDB
Dentro de las bases de datos NoSQL, probablemente una de las más famosas sea MongoDB. Con un concepto muy diferente al de las bases de datos relacionales, se está convirtiendo en una interesante alternativa para almacenar los datos de nuestras aplicaciones.
3. Elasticsearch
Elasticsearch es una potente herramienta para la búsqueda entre grandes cantidades de datos, especialmente cuando los datos son de tipo complejo.
4. Apache Spark
Apache Spark es un motor de procesamiento de datos de código abierto realmente rápido.
5. Apache Storm
Apache Storm es un sistema de computación distribuida en tiempo real orientado a procesar flujos constantes de datos, por ejemplo, datos de sensores que se emiten con una alta frecuencia o datos que provengan de las redes sociales, donde a veces es importante saber qué se está compartiendo en este momento.
No hay comentarios:
Publicar un comentario