Big Data

{Foto: Big Data, por Free Images, Licencia: Creative Commons}

Definición:

         “Big Data” o datos masivos es el proceso de recolección de grandes cantidades de                   datos y su inmediato análisis para revelar patrones, tendencias y asociaciones,                   especialmente relacionados con el comportamiento humano y las interacciones.

Una Breve Historia Por Bernard Marr:

La historia de este término puede ser breve pero los fundamentos de esta misma se establecieron en los años antes de cristos (AC.)

Historia Antigua

  • 18,000 años AC. = Los seres humanos utilizan palillos para registrar los datos por primera vez. Estos se utilizan para realizar un seguimiento de la actividad comercial y el registro de inventarios.
  • 2,400 años AC. = Se desarrolla el ábaco, y se construyen las primeras bibliotecas en Babilonia.
  • 300 años AC – 48 años DC=La Biblioteca de Alejandría es el mayor centro de almacenamiento de datos del mundo. Hasta ser destruida por los romanos.
  • 200-100 años dc =Se desarrolla en Grecia el mecanismo de Anticitera; el primer ordenador mecánico.

El surgimiento de la Estadística

  • 1663=John Graunt lleva a cabo los primeros experimentos estadísticos de análisis registrados en un intento de frenar la propagación de la peste bubónica en Europa.
  • 1865=El término “inteligencia de negocios” es utilizado por Richard Millar Devens en su Enciclopedia de anécdotas comerciales y empresariales.
  • 1881=Herman Hollerith crea la máquina de tabulación Hollerith. Máquina que utiliza tarjetas perforadas para reducir la carga enorme de trabajo del Censo de Estados Unidos.

Los primeros días del almacenamiento de datos moderno

  • 1926= Nikola Tesla predice que, en el futuro, un hombre será capaz de acceder y analizar grandes cantidades de datos utilizando un dispositivo lo suficientemente pequeño que cabrá en el bolsillo.
  • 1928=Fritz Pfleumer crea un método de almacenamiento de datos magnético, que forma base de la tecnología de almacenamiento de datos digital moderno.
  • 1944=Fremont Rider especula sobre que la Biblioteca de Yale contendrá 200 millones de libros almacenados en 6.000 millas de estanterías, en el 2040.

Los inicios de la Inteligencia de Negocios

  • 1958= El investigador de IBM, Hans Peter, define “Business Intelligence” como la capacidad de aprehender las interrelaciones de los hechos presentados de tal manera que guíen la acción hacia un objetivo deseado
  • 1962= Los primeros pasos se toman para el reconocimiento de voz, cuando el ingeniero de IBM William C Dersch presenta la Máquina Shoebox en la Feria Mundial. Puede interpretar números y dieciséis palabras habladas en inglés en información digital.
  • 1964= Un artículo en New Statesman se refiere a la dificultad de gestionar la creciente cantidad de información disponible.

El inicio de los grandes centros de datos

  • 1965= El gobierno de los Estados Unidos planea el primer centro de datos del mundo para almacenar 742 millones de declaraciones de impuestos y 175 millones de juegos de huellas dactilares en cinta magnética.
  •  1970= El matemático de IBM Edgar F Codd presenta su marco para una “base de datos relacional”. ·
  •  1976= Los sistemas de planificación de necesidades de materiales (MRP) se utilizan cada vez más en el mundo de los negocios, lo que representa uno de los primeros usos comerciales de las computadoras para acelerar los procesos cotidianos y hacer eficiencias. ·
  • 1989= El autor de “best-sellers” internacional Erik Larson escribe un artículo para Harpers Magazine especulando sobre el origen del correo no deseado que recibe. Él escribe: “Los guardianes del big data dicen que lo están haciendo en beneficio del consumidor. Pero los datos tienen una forma de ser utilizados para otros fines originalmente previstos “. Además, la “inteligencia de negocios”, que ya es un concepto popular desde finales de la década de los 50, ve un aumento de popularidad con el nuevo software y los sistemas emergentes para analizar el rendimiento comercial y operativo.

Internet entra en marcha

  • 1991= El informático Tim Berners-Lee anunció el nacimiento de lo que se convertiría en la “World Wide Web” tal como la conocemos hoy.
  • 1996=Según R J T Morris y B J Truskowski en su libro de 2003 “The Evolution of Storage Systems”, este es el punto donde el almacenamiento digital se hizo más rentable que el papel.
  •  1997= Michael Lesk publica su artículo ¿Cuánta información hay en el mundo? Teorizando que la existencia de 12,000 petabytes es “tal vez una conjetura no razonable”. También señala que incluso en este punto inicial de su desarrollo, la red aumenta en tamaño 10 veces cada año.  Además, La Búsqueda de Google también se estrena este año.

Ideas tempranas de “Big Data”

  • 1999= Aparece el término Big Data en “Visually Exploring Gigabyte Datasets” en Real Time, publicado por la “Association for Computing Machinery”. De nuevo, se lamenta la propensión a almacenar grandes cantidades de datos sin una forma adecuada de analizarla. También posiblemente el primer uso del término “Las cosas de Internet”.
  • 2000= ¿En cuánta información? Peter Lyman y Hal Varian intentaron cuantificar la cantidad de información digital en el mundo y su tasa de crecimiento, por primera vez. Concluyeron: “La producción total anual del mundo de contenido de impresión, película, óptico y magnético requeriría aproximadamente 1.500 millones de gigabytes de almacenamiento. Esto es el equivalente a 250 megabytes por persona por cada hombre, mujer y niño en la Tierra “.
  • 2001= En su documento Gestión de datos tridimensionales: Control de volumen, velocidad y variedad de datos. Doug Laney, analista de Gartner, define tres de las características comúnmente aceptadas de Big Data. Este año también vemos el primer uso del término “software” como servicio, un concepto fundamental para muchas de las aplicaciones basadas en la nube que son estándares de la industria en la actualidad, en el artículo Antecedentes estratégicos: Software como servicio del software y Asociación de la Industria de la Información.

La web 2.0 aumenta los volúmenes de datos

  • 2005=Los comentaristas anuncian que estamos presenciando el nacimiento de la “Web 2.0”, la web generada por los usuarios, en la que la mayoría del contenido será proporcionado por los usuarios de los servicios, en lugar de los propios proveedores de servicios. 5.5 millones de personas ya están usando Facebook, lanzado un año antes, para cargar y compartir sus propios datos con amigos. Este año también se ve la creación de Hadoop, el marco de código abierto creado específicamente para el almacenamiento y análisis de conjuntos de Big Data.

El uso actual del término ‘Big Data’ emerge

  • 2007=Wired trae el concepto de Big Data a las masas con su artículo “The End of Theory: The Data Deluge Makes the Scientific Model Obsolete”.
  • 2008=Los servidores del mundo procesan 9.57 zettabytes de información, lo que equivale a 12 gigabytes de información por persona, por día, de acuerdo con la sección ¿Cuánta información? Informe de 2010 En International “Production and Dissemination of Information”, se estima que este año se producen 14,7 exabytes de nueva información.
  •  2009=La compañía estadounidense promedio con más de 1,000 empleados almacena más de 200 terabytes de datos según el informe Big Data: La próxima frontera para la innovación, competencia y productividad del “McKinsey Global Institute”.
  • 2011=El informe de McKinsey establece que para 2018 los Estados Unidos enfrentarán un déficit de entre 140,000 y 190,000 científicos de datos profesionales, y declarará que los problemas que incluyen privacidad, seguridad y propiedad intelectual tendrán que resolverse antes de que se realice el valor total de Big Data.
  • 2014=El aumento de las máquinas móviles: por primera vez, más personas utilizan dispositivos móviles para acceder a datos digitales que las computadoras de la oficina o el hogar. El 88% de los ejecutivos de negocios encuestados por GE que trabajan con Accenture informan que el análisis de big data es una prioridad para sus negocios.
  • 2016= El Big Data se convierte en la palabra de moda. Se generaliza la contratación de expertos en Big Data, el “Learning Machine” llega a las fábricas y el Internet de las Cosas empieza a impregnarlo todo.
  • 2017= Los datos llegan a las masas. La gente controla sus patrones de descanso con pulseras, sabe en qué se gasta el dinero con aplicaciones móviles y se informa sobre la posesión de balón de su equipo de fútbol.

Descripción de tecnología:

Las herramientas asociadas al Big Data están en constante crecimiento y es imposible de comprender en su totalidad. Es posible presentar el trabajo que ofrece las herramientas de este término para procesar y analizar gran cantidad de data de manera ordenada. Sin embargo, se hablará de las cinco categorías principales de herramientas, estas son:

  • Infraestructura: esta es uno de los aspectos más importantes para tener en cuenta a la hora de querer implementar nuestros proyectos. Tener definida una infraestructura estable es capaz de suplir todas las necesidades y a su vez permita crecer conforme sea necesario y avance el proyecto es primordial, ya que de esto dependerá nuestra capacidad futura de análisis y acción de los sistemas que soportará.
  • Analytics: es el proceso de analizar grandes volúmenes de información para descubrir patrones, sacar conclusiones y mejorar la toma de decisiones empresariales.
  • Aplicaciones específicas: Existen aplicaciones como NoSQL, Hadoop, Cassandra, MapReduce, etc. En las cuales tratan con algunos de estos tres tipos de datos:

Datos estructurados: Se almacenan en tablas.

Datos no estructurados: datos que carecen de un formato específico. No se pueden almacenar dentro de una tabla. Son PDF, documentos multimedia, correos electrónicos o documentos de texto.

Datos semiestructurados: datos que contiene marcadores para separar los elementos. poseen sus propios metadatos. Son hojas de cálculo, HTML, XML.

  • Data Sources: La cual es básicamente cualquier fuente de datos.
  • Plataformas: Estas ayudan a descubrir el panorama completo de los datos y no solo entender qué, sino también por qué.

 

Aplicaciones:

Entre todas las aplicaciones que se utiliza el Big Data se puede mencionar las siguientes:

  • Pandora: este es un servicio de música en el que le dices una canción que te gusta y te crea una radio personalizada con canciones de estilo similar, a las que puedes decir que te gustan o no. Esta capacidad de analizar montones de información sobre gustos de sus usuarios es por el “Big Data”.
  • Google Now: Google tiene un servicio muy integrado con sus móviles Android (aunque también está para iPhone y iPad) que básicamente te da información que necesitas sin que se la pidas. Usa de forma automática todo lo que sabe sobre ti para facilitarte un poco más la vida.  Cada vez hay más funcionalidad por el “Big Data”
  • YouTube: Este es un gran suministrador de videos que utiliza el “Big Data” sugiriendo que vídeo que te pueden interesar, basándose en los vídeos que ves y los que has marcado como interesantes.
  • Amazon: Esta utiliza el “Big Data” para hacer recomendaciones de productos a sus clientes basándose en lo que buscan, miran y compran, así como información de otros usuarios similares.
  • Twitter: Cuando entras a esta aplicación siempre ves una pequeña caja que te recomienda gente a la que seguir y estas recomendaciones están basadas en ‘Big Data’: gente similar a la que sigues, perfiles similares al tuyo, entre otros.

Recursos Bibliográficos

5 Referencias académicas (APA)

1) La toma de decisiones en las ruedas de bolsa requiere de datos e información, así como de reglas de inferencia a emplear por los agentes económicos. Con las reglas y la información se podrá establecer valores para las variables que le den soporte al análisis de las posibilidades de compra o venta que enfrenta el agente económico en las ruedas de bolsa.  Rivas, H. (2018). Big data, inteligencia analítica y la bolsa de valores. [online]Revistas.upc.edu.pe. Available at: http://revistas.upc.edu.pe/index.php/rgm/article/view/703 [Accessed 9 Mar. 2018].

2) Los sistemas cliente ahora están integrados con la nube, la cosa de internet y fuentes de datos externas, como las redes sociales. Además, muchos clientes de compromiso ahora están integrando este Big Data con nuevos y complejos enfoques analíticos comerciales para generar inteligencia para la toma de decisiones. Este documento primero establece la necesidad de que la profesión de auditoría externa avance hacia Big Data y análisis de auditoría. A continuación, revisa las reglamentaciones relacionadas con la evidencia de auditoría y los procedimientos analíticos, en contraste con el entorno emergente de Big Data y los análisis avanzados. Appelbaum, D., Kogan, A., & Vasarhelyi, M. A. (2017). Big Data and Analytics in the Modern Audit Engagement: Research Needs. Auditing: A Journal Of Practice & Theory36(4), 1-27. doi:10.2308/ajpt-51684

3) Con la proliferación de servicios en línea y tecnologías móviles, el mundo ha entrado en una era de big data multimedia. Se ha realizado una gran cantidad de trabajos de investigación en el área multimedia, enfocándose en diferentes aspectos del análisis de big data, como captura, almacenamiento, indexación, extracción y recuperación de big data multimedia. Sin embargo, muy pocos trabajos de investigación proporcionan una encuesta completa de toda la línea de trabajo del análisis de Big Data multimedia. Para cumplir este propósito, presentamos esta encuesta, que lleva a cabo una descripción completa del trabajo de investigación de última generación sobre análisis de big data multimedia. POUYANFAR, S., YIMIN, Y., SHU-CHING, C., MEI-LING, S., & IYENGAR, S. S. (2018). Multimedia Big Data Analytics: A Survey. ACM Computing Surveys51(1), 10:1-10:34.

4) Los intentos de adoptar los datos de red masivamente de las redes sociales se refieren a proporcionar los medios particulares para extraer el valor del espacio de información como mensajes, conversaciones, transacciones y otros, donde las fuentes de datos estructurados provienen de datos de recursos de la empresa y fuentes de datos no estructurados vienen de audio y video. Se puede lograr expandir el proceso de extracción del valor de la red social para modelar las fuentes de datos para cumplir con el objetivo de la organización. Huda, M., Maseleno, A., Atmotiyoso, P., Siregar, M., Ahmad, R., Kamarul Azmi, J., & … Basiron, B. (2018). Big Data Emerging Technology: Insights into Innovative Environment for Online Learning Resources. International Journal Of Emerging Technologies In Learning13(1), 23-36. doi:10.3991/ijet.v13i01.6990

5) Big Data es una de las palabras de moda más publicitadas en la academia y la industria. Este artículo hace una temprana contribución a la investigación sobre big data al ubicar los datos teóricamente como un objeto histórico y argumenta que gran parte del discurso sobre la supuesta transparencia y objetividad de big data ignora los roles cruciales de interpretación y comunicación. Frith, J. (2017). Big Data, Technical Communication, and the Smart City. Journal Of Business & Technical Communication31(2), 168-187. doi:10.1177/1050651916682285

3 websites o blogs

  1. MiBloguel
  2. A Brief History of Big Data Everyone Should Read

  3. Amelie Calot Blog

5 Identidades Twitter de personas expertas en Big Data

  1. Ramón Triviño Barros (@RamonTrivino)
  2. Javier Núñez (@javunga)
  3. Bigdata WebGestiones (@BigData_WG)
  4. Ramón Triviño Barros (@RamonTrivino)
  5. Kirk BorneCuenta verificada (@KirkDBorne)