Iván de Prado, cofundador y CEO de Datasalt, y director del Programa Experto en Big data en U-tad nos adelanta las 5 tendencias que veremos este 2015 en Big data:
Evolución tecnológica: Spark
La principal tecnología que ha sustentado la revolución del Big Data se llamaHadoop, principalmente se basaba en un algoritmo llamado MapReduce, en su momento inventado por Google. A su alrededor surgieron muchas otras tecnologías, pero hubo un problema en este ecosistema y es que, de alguna manera, está muy fragmentado y formado por productos independientes no bien conectados entre sí. Un nueva tecnología llamada Spark, además de con la promesa de aumentar la eficiencia, viene a resolver el problema de la fragmentación ofreciendo una solución completa a la vez que homogénea. Si bien, Spark no es aún el presente pues le falta cierta madurez, sí que esta claro que será el futuro. Ojo, la transición a Spark será gradual y Spark no será más que otra pieza del ecosistema. Eso sí, será una pieza muy importante que irá ganando en importancia.
Convergencia entre Datawarehouses y Hadoop
Hasta ahora la principal herramienta empresarial para el análisis y la gestión de datos era el Datawarehouse empresarial. Hadoop y las bases de datos NoSQL, que son la principales herramientas del Big Data, no pueden considerarse un reemplazo de este Datawarehouse (basado en una base de datos relacional). Al final, ambas tecnologías están obligadas a convivir. Es por ello que vamos a asistir a una convergencia: desde el mundo del Datawarehouse se harán acercamientos al mundo del Big Data y viceversa. Y en el final del camino veremos sistemas híbridos que aunarán las capacidades de ambos mundos.
Aparición de las aplicaciones Big Data
De algún modo todas las tecnologías alrededor del Big Data suponen un nuevo “sistema operativo” sobre el que establecer aplicaciones Big Data. A lo largo de este año vamos a vivir un crecimiento de las aplicaciones Big Data que resuelven problemas concretos y que se comercializan para correr sobre plataformas Big Data.
Creciente importancia del “tiempo real”
Siempre suelo decir que resolver un problema en tiempo real es 10 veces más complicado desde el punto de vista tecnológico que resolverlo contando con tiempo para ello. Es por esto que la tecnologías más maduras que tenemos actualmente están centradas en la resolución de problemas “por lotes”. Con el paso del tiempo cuando queden bien asentadas soluciones a problemas que no sean en tiempo real sufriremos un creciente interés por conseguir las mismas soluciones, pero en tiempo real.
Del NoSQL al NewSQL
¿Por qué las bases de datos NoSQL renegaban del SQL? No era porque considerasen el SQL como algo anticuado, complicado o poco útil, contrariamente a lo que se pueda pensar. La razón verdadera era que el SQL ofrece un conjunto de capacidades tan amplio (transacciones, modelo relacional, índices, etc) que era imposible ofrecerlas todas juntas de manera efectiva para volúmenes grandes de datos. Es por esto que surgieron las bases de datos NoSQL que prometen ser capaces de manejar Big Data, pero a cambio de ofrecer unas capacidades mucho más limitadas. A medida que las tecnologías maduren vamos a ir viendo cada vez más bases de datos NoSQL ofreciendo subconjuntos del lenguaje SQL. Eso sí, esto no cambia el hecho de que nos movemos hacia la era de “una base de datos para cada problema”.
Un clúster en cada gran empresa
No habrá gran empresa que no tenga uno o varios clústers con tecnologías Big Data en los próximos años. Quizás en un principio serán usados para la experimentación antes de llegar a ser usados operativamente.