{"id":1139,"date":"2025-05-06T08:00:00","date_gmt":"2025-05-06T08:00:00","guid":{"rendered":"https:\/\/cloudlab.urv.cat\/catedracloud\/?p=1139"},"modified":"2025-05-06T09:34:20","modified_gmt":"2025-05-06T09:34:20","slug":"de-los-warehouse-a-los-lakehouse-el-futuro-de-la-arquitectura-de-datos","status":"publish","type":"post","link":"https:\/\/cloudlab.urv.cat\/catedracloud\/2025\/05\/06\/de-los-warehouse-a-los-lakehouse-el-futuro-de-la-arquitectura-de-datos\/","title":{"rendered":"De los warehouse a los lakehouse: El futuro de la arquitectura de datos"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\">Los datos son el coraz\u00f3n de las organizaciones modernas. Desde los <em>dashboards<\/em> empresariales hasta los modelos de inteligencia artificial, son la base de cualquier iniciativa digital. Pero incluso hoy en d\u00eda, la forma en que almacenamos, accedemos y procesamos los datos sigue siendo m\u00e1s complicada de lo que deber\u00eda.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Este blog basado en el articulo de <a href=\"https:\/\/www.cidrdb.org\/cidr2021\/papers\/cidr2021_paper17.pdf\">CIDR 2017 Lakehouse: A New Generation of Open Platforms that Unify<br>Data Warehousing and Advanced Analytics<\/a> presenta el <strong>Lakehouse<\/strong>: una nueva y potente arquitectura de datos que est\u00e1 ganando adeptos en todos los sectores. Est\u00e1 dise\u00f1ada para resolver las deficiencias de los sistemas actuales combinando las mejores caracter\u00edsticas de los data warehouses y los data lakes de datos en una plataforma unificada.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Pero primero, rebobinemos un momento&#8230;<\/p>\n\n\n\n<div class=\"wp-block-uagb-separator uagb-block-0bd13bb1\"><div class=\"uagb-separator-spacing-wrapper\"><div class=\"wp-block-uagb-separator__inner\" style=\"--my-background-image:\"><\/div><\/div><\/div>\n\n\n\n<h2 class=\"wp-block-heading\">La era de los data warehouses<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">En los inicios del an\u00e1lisis de datos, las empresas invert\u00edan en <em>data warehouses<\/em>, sistemas centralizados dise\u00f1ados para almacenar datos estructurados y ejecutar consultas anal\u00edticas complejas. Estos sistemas eran excelentes para las herramientas de inteligencia empresarial (BI), ya que permit\u00edan a las organizaciones crear informes y cuadros de mando a partir de datos relacionales perfectamente organizados.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Los data warehouses contaban con varios puntos fuertes importantes:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Alto rendimiento de las consultas:<\/strong> Los almacenes se crearon para realizar an\u00e1lisis SQL r\u00e1pidos. Sus motores de consulta est\u00e1n optimizados para escanear grandes vol\u00famenes de datos estructurados de forma eficiente.<\/li>\n<\/ul>\n\n\n\n<ul class=\"wp-block-list\">\n<li><\/li>\n<\/ul>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Inserciones y actualizaciones eficientes: <\/strong>Aunque los almacenes est\u00e1n altamente optimizados para cargas de trabajo OLAP, estos sistemas utilizan motores de almacenamiento optimizados que permiten actualizaciones, inserciones e indexaciones r\u00e1pidas y consistentes.<\/li>\n<\/ul>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Garant\u00edas ACID:<\/strong> Quiz\u00e1s lo m\u00e1s importante es que los almacenes admiten transacciones ACID, lo que significa que las operaciones de datos son At\u00f3micas, Consistentes, Aisladas y Duraderas. Esto garantizaba la fiabilidad de los datos, incluso ante actualizaciones simult\u00e1neas o fallos del sistema.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">A pesar de sus ventajas, los almacenes ten\u00edan serias <strong>limitaciones<\/strong>, sobre todo en cuanto a costes y flexibilidad. Una de las principales razones es que vinculaban la computaci\u00f3n y el almacenamiento. Esto significaba que los almacenes asignaban por adelantado tanto la potencia de c\u00e1lculo como la capacidad de almacenamiento, independientemente del uso real. Incluso si nadie ejecutaba consultas, el sistema segu\u00eda incurriendo en costes de recursos. Peor a\u00fan, si se quer\u00eda ampliar o reducir el sistema, no se pod\u00eda a\u00f1adir m\u00e1s capacidad de c\u00e1lculo o de almacenamiento de forma independiente, sino que hab\u00eda que hacer ambas cosas a la vez.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Algunos sistemas de data warehouse conocidos son Snowflake, Google BigQuery, Amazon Redshift y Teradata&#8230;<\/p>\n\n\n\n<div class=\"wp-block-uagb-separator uagb-block-739d98c6\"><div class=\"uagb-separator-spacing-wrapper\"><div class=\"wp-block-uagb-separator__inner\" style=\"--my-background-image:\"><\/div><\/div><\/div>\n\n\n\n<div class=\"wp-block-uagb-advanced-heading uagb-block-89202f43\"><h2 class=\"uagb-heading-text\">El auge de los Data Lake<\/h2><\/div>\n\n\n\n<p class=\"wp-block-paragraph\">A medida que aumentaban los vol\u00famenes de datos y se diversificaban los tipos de datos, se hicieron m\u00e1s evidentes las limitaciones de los almacenes de datos tradicionales, especialmente su elevado coste, sus r\u00edgidos requisitos de esquema y su escasa escalabilidad.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Esto condujo a la aparici\u00f3n de un nuevo paradigma: el <strong>Data Lake<\/strong>. Los data lakes se dise\u00f1aron para resolver muchos de los problemas asociados a los data warehouses, especialmente en cuanto a costes y escalabilidad.<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Separaci\u00f3n de computaci\u00f3n y almacenamiento<\/strong>: A diferencia de los almacenes tradicionales, los data lakes desvinculan la computaci\u00f3n del almacenamiento. Pueden almacenar cantidades masivas de datos a bajo coste (a menudo en almacenamiento de objetos en la nube como Amazon S3, Azure Data Lake Storage o Google Cloud Storage) y s\u00f3lo pagar por la computaci\u00f3n cuando realmente ejecute consultas o trabajos de procesamiento.<\/li>\n<\/ul>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Escalabilidad masiva<\/strong>: Dado que la capa de almacenamiento es nativa de la nube y distribuida, los data lakes pueden escalar casi infinitamente. No tiene que preocuparse por aprovisionar servidores o quedarse sin espacio.<\/li>\n<\/ul>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Los data lakes permiten almacenar cualquier cosa<\/strong>: Esto hace que los data lakes se adapten mejor a las cargas de trabajo de ML emergentes, ya que pueden almacenar y procesar grandes vol\u00famenes de datos estructurados, semiestructurados y no estructurados en formatos abiertos, lo que permite una extracci\u00f3n de caracter\u00edsticas y una experimentaci\u00f3n flexibles y a gran escala.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Sin embargo, los data lakes tambi\u00e9n tienen puntos d\u00e9biles. En primer lugar, no incorporan optimizaci\u00f3n de consultas. Los data lakes almacenan los datos en archivos -a menudo en almacenes de objetos baratos- y dependen de motores externos como Apache Spark, Presto o Hive para procesarlos. Aunque estos motores pueden ser potentes, no tienen una visibilidad profunda de la disposici\u00f3n de los datos, lo que se traduce en un rendimiento de las consultas a menudo lento o impredecible. En segundo lugar, los data lakes carecen de funciones como las transacciones ACID, el control de versiones o la aplicaci\u00f3n de esquemas. Esto significa que es f\u00e1cil acabar con datos incoherentes o corruptos cuando varios trabajos leen y escriben simult\u00e1neamente. Sin controles estrictos, los esquemas incorrectos o en evoluci\u00f3n pueden introducirse silenciosamente en el sistema, lo que dificulta el mantenimiento de canalizaciones fiables y aptas para la producci\u00f3n.<\/p>\n\n\n\n<div class=\"wp-block-uagb-separator uagb-block-d39284a4\"><div class=\"uagb-separator-spacing-wrapper\"><div class=\"wp-block-uagb-separator__inner\" style=\"--my-background-image:\"><\/div><\/div><\/div>\n\n\n\n<div class=\"wp-block-uagb-advanced-heading uagb-block-c61f2dfa\"><h2 class=\"uagb-heading-text\">Las arquitecturas de datos actual: Un compromiso de dos niveles<\/h2><\/div>\n\n\n\n<div class=\"wp-block-uagb-image uagb-block-d47066ed wp-block-uagb-image--layout-default wp-block-uagb-image--effect-static wp-block-uagb-image--align-none\"><figure class=\"wp-block-uagb-image__figure\"><img decoding=\"async\" srcset=\"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-content\/uploads\/2025\/05\/Captura-de-pantalla-2025-05-06-a-las-8.58.59-1024x401.png ,https:\/\/cloudlab.urv.cat\/catedracloud\/wp-content\/uploads\/2025\/05\/Captura-de-pantalla-2025-05-06-a-las-8.58.59.png 780w, https:\/\/cloudlab.urv.cat\/catedracloud\/wp-content\/uploads\/2025\/05\/Captura-de-pantalla-2025-05-06-a-las-8.58.59.png 360w\" sizes=\"auto, (max-width: 480px) 150px\" src=\"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-content\/uploads\/2025\/05\/Captura-de-pantalla-2025-05-06-a-las-8.58.59-1024x401.png\" alt=\"\" class=\"uag-image-1225\" width=\"1238\" height=\"485\" title=\"Captura de pantalla 2025-05-06 a las 8.58.59\" loading=\"lazy\" role=\"img\"\/><\/figure><\/div>\n\n\n\n<p class=\"wp-block-paragraph\">La mayor\u00eda de las organizaciones funcionan ahora con una arquitectura de datos de dos niveles: Los data lakes recopilan y almacenan todos los datos sin procesar, mientras que los data warehouse se utilizan para el an\u00e1lisis, una vez que los datos se extraen, se limpian y se transforman. Incluso con todas las herramientas y servicios nativos de la nube, las empresas todav\u00eda se encuentran con importantes impedimentos:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>1. Fiabilidad y calidad de los datos<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Cuando los datos se mueven entre varios sistemas (por ejemplo, lake \u2192 ETL \u2192 warehouse), aparecen errores e incoherencias. Un cambio de esquema aqu\u00ed, un sutil desajuste de formato all\u00e1&#8230; y de repente sus informes no coinciden con sus datos de origen.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>2. Datos obsoletos<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Los datos de los warehouses suelen ir por detr\u00e1s de los del data lake. Esto significa que su panel de control \u00aben tiempo real\u00bb podr\u00eda estar trabajando con datos de hace d\u00edas. Para las empresas que dependen de informaci\u00f3n actualizada al minuto, como la detecci\u00f3n de fraudes, la captaci\u00f3n de clientes o la optimizaci\u00f3n de la cadena de suministro, esto supone un grave problema.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>3. Las herramientas de aprendizaje autom\u00e1tico como TensorFlow, PyTorch y XGBoost no est\u00e1n dise\u00f1adas para trabajar con warehouses.<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Requieren un alto rendimiento y un acceso flexible a los datos, lo cual es dif\u00edcil cuando los datos est\u00e1n encerrados en un motor SQL propietario. En su lugar, los cient\u00edficos de datos a menudo se ven obligados a exportar los datos de nuevo a los archivos, creando m\u00e1s tuber\u00edas, m\u00e1s retrasos y m\u00e1s espacio para los errores.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>4. Coste total elevado<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Se paga por: Almacenamiento tanto en el lake como en el warehouse, herramientas ETL y pipelines, duplicaci\u00f3n de datos y bloqueo de proveedores por formatos propietarios. Todo esto se acumula r\u00e1pidamente.<\/p>\n\n\n\n<div class=\"wp-block-uagb-separator uagb-block-9c3d572c\"><div class=\"uagb-separator-spacing-wrapper\"><div class=\"wp-block-uagb-separator__inner\" style=\"--my-background-image:\"><\/div><\/div><\/div>\n\n\n\n<div class=\"wp-block-uagb-advanced-heading uagb-block-c18eee91\"><h2 class=\"uagb-heading-text\">El Data Lakehouse: lo mejor de ambos mundos<\/h2><\/div>\n\n\n\n<p class=\"wp-block-paragraph\">Imagina un sistema que:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Utiliza <strong>formatos abiertos<\/strong> como Parquet y ORC.<\/li>\n<\/ul>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Soporta <strong>cargas de trabajo de BI y de aprendizaje autom\u00e1tico<\/strong>.<\/li>\n<\/ul>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Incorpora <strong>transacciones ACID<\/strong>, versionado de datos y optimizaciones de rendimiento.<\/li>\n<\/ul>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Elimina los procesos ETL<\/strong> redundantes.<\/li>\n<\/ul>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Ofrece una plataforma para gestionar <strong>datos estructurados, semiestructurados y no estructurados<\/strong>.<\/li>\n<\/ul>\n\n\n\n<p class=\"wp-block-paragraph\">Eso es <strong>Lakehouse<\/strong>: la convergencia del data lake y el data warehouse en un \u00fanico sistema unificado.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Entonces, \u00bfpor qu\u00e9 el modelo Lakehouse s\u00f3lo empieza a ser viable hoy en d\u00eda?<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Por tres grandes avances:<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Capas de metadatos transaccionales<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Los formatos de Lakehouse, Delta Lake, Apache Iceberg y Apache Hudi a\u00f1aden funciones como las transacciones ACID y la aplicaci\u00f3n de esquemas a los data lakes tradicionales. Estas capas act\u00faan como el cerebro del sistema: gestionan las versiones de los archivos, el control de acceso, etc.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>API preparadas para ML<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Los frameworks modernos de ML ahora pueden leer de forma nativa desde formatos de archivo abiertos. Las nuevas API declarativas DataFrame permiten una optimizaci\u00f3n inteligente de las canalizaciones de datos, lo que permite tanto a los analistas como a los ingenieros de ML acceder a los mismos datos de alta calidad de forma eficiente.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><strong>Rendimiento<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Los nuevos sistemas almacenan en cach\u00e9 los datos a los que se accede con m\u00e1s frecuencia, utilizan \u00edndices auxiliares y optimizan la disposici\u00f3n de los datos, todo ello sin cambiar el formato de archivo abierto.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">\u00bfCu\u00e1l es el resultado? <strong>Los data lakehouse pueden alcanzar ahora un rendimiento equiparable al de los data warehouse comerciales, manteniendo al mismo tiempo la flexibilidad, la apertura y la rentabilidad de los data lakes.<\/strong><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">El data warehouse, pero est\u00e1 evolucionando. El modelo Lakehouse ofrece un camino prometedor, especialmente para las empresas que quieren hacer m\u00e1s con sus datos: m\u00e1s r\u00e1pido, m\u00e1s inteligente y m\u00e1s barato. Si usted es un ingeniero de datos, un cient\u00edfico de datos o un l\u00edder de producto que busca preparar su pila para el futuro, merece la pena explorar Lakehouse.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">En el pr\u00f3ximo art\u00edculo, nos adentraremos en c\u00f3mo funciona realmente un sistema Lakehouse bajo el cap\u00f3 y qu\u00e9 se necesita para construir uno.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Los datos son el coraz\u00f3n de las organizaciones modernas. Desde los dashboards empresariales hasta los modelos de inteligencia artificial, son la base de cualquier iniciativa digital. Pero incluso hoy en d\u00eda, la forma en que almacenamos, accedemos y procesamos los datos sigue siendo m\u00e1s complicada de lo que deber\u00eda. Este blog basado en el articulo [&hellip;]<\/p>\n","protected":false},"author":6,"featured_media":1227,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_uag_custom_page_level_css":"","_swt_meta_header_display":false,"_swt_meta_footer_display":false,"_swt_meta_site_title_display":false,"_swt_meta_sticky_header":false,"_swt_meta_transparent_header":false,"footnotes":""},"categories":[34,41,113,15,50],"tags":[],"class_list":["post-1139","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-almacenamiento","category-big-data","category-cloud-computing","category-divulgacion","category-futuro"],"jetpack_featured_media_url":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-content\/uploads\/2025\/05\/c17d665d-09e1-4560-976c-3d5d38801662-min.png","uagb_featured_image_src":{"full":["https:\/\/cloudlab.urv.cat\/catedracloud\/wp-content\/uploads\/2025\/05\/c17d665d-09e1-4560-976c-3d5d38801662-min.png",1536,1024,false],"thumbnail":["https:\/\/cloudlab.urv.cat\/catedracloud\/wp-content\/uploads\/2025\/05\/c17d665d-09e1-4560-976c-3d5d38801662-min-150x150.png",150,150,true],"medium":["https:\/\/cloudlab.urv.cat\/catedracloud\/wp-content\/uploads\/2025\/05\/c17d665d-09e1-4560-976c-3d5d38801662-min-300x200.png",300,200,true],"medium_large":["https:\/\/cloudlab.urv.cat\/catedracloud\/wp-content\/uploads\/2025\/05\/c17d665d-09e1-4560-976c-3d5d38801662-min-768x512.png",768,512,true],"large":["https:\/\/cloudlab.urv.cat\/catedracloud\/wp-content\/uploads\/2025\/05\/c17d665d-09e1-4560-976c-3d5d38801662-min-1024x683.png",1024,683,true],"1536x1536":["https:\/\/cloudlab.urv.cat\/catedracloud\/wp-content\/uploads\/2025\/05\/c17d665d-09e1-4560-976c-3d5d38801662-min.png",1536,1024,false],"2048x2048":["https:\/\/cloudlab.urv.cat\/catedracloud\/wp-content\/uploads\/2025\/05\/c17d665d-09e1-4560-976c-3d5d38801662-min.png",1536,1024,false]},"uagb_author_info":{"display_name":"Aitor Arjona","author_link":"https:\/\/cloudlab.urv.cat\/catedracloud\/author\/aitor\/"},"uagb_comment_info":10,"uagb_excerpt":"Los datos son el coraz\u00f3n de las organizaciones modernas. Desde los dashboards empresariales hasta los modelos de inteligencia artificial, son la base de cualquier iniciativa digital. Pero incluso hoy en d\u00eda, la forma en que almacenamos, accedemos y procesamos los datos sigue siendo m\u00e1s complicada de lo que deber\u00eda. Este blog basado en el articulo&hellip;","_links":{"self":[{"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/posts\/1139","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/users\/6"}],"replies":[{"embeddable":true,"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/comments?post=1139"}],"version-history":[{"count":8,"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/posts\/1139\/revisions"}],"predecessor-version":[{"id":1233,"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/posts\/1139\/revisions\/1233"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/media\/1227"}],"wp:attachment":[{"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/media?parent=1139"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/categories?post=1139"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/tags?post=1139"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}