{"id":1405,"date":"2025-12-18T21:00:00","date_gmt":"2025-12-18T21:00:00","guid":{"rendered":"https:\/\/cloudlab.urv.cat\/catedracloud\/?p=1405"},"modified":"2025-07-28T19:56:21","modified_gmt":"2025-07-28T19:56:21","slug":"faas-viene-a-por-spark","status":"publish","type":"post","link":"https:\/\/cloudlab.urv.cat\/catedracloud\/2025\/12\/18\/faas-viene-a-por-spark\/","title":{"rendered":"FaaS viene a por Spark"},"content":{"rendered":"\n<p>En posts anteriores hemos hablado sobre Spark y sus capacidades para el procesamiento de grandes vol\u00famenes de datos. Sin embargo, con la llegada de las arquitecturas serverless, surge la pregunta: \u00bfes siempre mejor utilizar Spark?<\/p>\n\n\n\n<p>En este post, exploraremos los principales resultados de un art\u00edculo presentado por el grupo de investigaci\u00f3n CloudLab de la URV, que presenta algunas tareas donde FaaS (Function as a Service) puede superar a Spark en t\u00e9rminos de rendimiento, coste y eficiencia. Puedes consultar el art\u00edculo completo <a href=\"https:\/\/doi.org\/10.1016\/j.jpdc.2024.104891\">aqu\u00ed<\/a>.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Ventajas y desventajas de Spark<\/h2>\n\n\n\n<p>Por lo general, Spark es una excelente opci\u00f3n para el procesamiento de grandes vol\u00famenes de datos, especialmente cuando se puede dimensionar correctamente el cl\u00faster. El precio por hora de un cl\u00faster de Spark suele ser bastante m\u00e1s econ\u00f3mico que el de FaaS, lo que lo convierte en una opci\u00f3n atractiva para tareas que requieren un procesamiento intensivo y prolongado.<\/p>\n\n\n\n<p>Sin embargo, Spark tiene algunas desventajas como pueden ser la complejidad de su gesti\u00f3n o ineficiencias con tareas relativamente cortas.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Ventajas y desventajas de FaaS<\/h2>\n\n\n\n<p>Por el contrario, FaaS (Function as a Service) ofrece un modelo de ejecuci\u00f3n m\u00e1s flexible y escalable. FaaS destaca por su escalabilidad autom\u00e1tica, pago por uso y simplicidad en la gesti\u00f3n, facilitando el desarrollo y la ejecuci\u00f3n eficiente de tareas bajo demanda.<\/p>\n\n\n\n<p>Sin embargo, FaaS tambi\u00e9n tiene desventajas, como el tiempo de arranque de las funciones o un mayor coste por hora en comparaci\u00f3n con Spark para tareas de larga duraci\u00f3n.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">FaaS brilla cuando Spark flaquea<\/h2>\n\n\n\n<p>En el art\u00edculo, se presentan una serie de algoritmos desbalanceados que muestran que a veces es imposible dimensionar correctamente un cluster de Spark para una tarea concreta, debido a la naturaleza de la tarea. En estos casos, la gran escalabilidad de FaaS y su modelo de pago por uso nos ofrecen una alternativa m\u00e1s eficiente y econ\u00f3mica.<\/p>\n\n\n\n<p>En particular, el Unbalance Tree Search (UTS) es un ejemplo de un algoritmo que se beneficia enormemente de las ventajas de FaaS. UTS es un algoritmo de b\u00fasqueda que puede ser altamente desbalanceado, lo que significa que algunas ramas del \u00e1rbol pueden requerir mucho m\u00e1s tiempo de procesamiento que otras. En estos casos, FaaS permite ejecutar las ramas m\u00e1s largas en paralelo sin necesidad de dimensionar un cl\u00faster completo de Spark. En cambio, Spark sobredimensiona o infradimensiona el cl\u00faster, lo que puede resultar en un uso ineficiente de los recursos y un mayor coste o un rendimiento deficiente.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Conclusiones<\/h2>\n\n\n\n<p>En resumen, aunque Spark es una herramienta poderosa para el procesamiento de grandes vol\u00famenes de datos, no siempre es la mejor opci\u00f3n. FaaS ofrece ventajas significativas en t\u00e9rminos de escalabilidad, flexibilidad y coste para tareas espec\u00edficas, especialmente aquellas que son desbalanceadas o de corta duraci\u00f3n.<\/p>\n\n\n\n<p>Como siempre, la elecci\u00f3n de nuestras herramientas en el cloud debe basarse en las necesidades espec\u00edficas de nuestras aplicaciones y cargas de trabajo. Y, aparte del coste bruto, tambi\u00e9n debemos considerar otros factores como el tiempo de desarrollo, la complejidad de la gesti\u00f3n, la escalabilidad o el modelo de pago.<\/p>\n\n\n\n<p>\u00bfHas probado FaaS para tareas que tradicionalmente se har\u00edan con Spark? \u00bfQu\u00e9 resultados has obtenido? \u00a1Comparte tu experiencia en los comentarios!<\/p>\n","protected":false},"excerpt":{"rendered":"<p>En posts anteriores hemos hablado sobre Spark y sus capacidades para el procesamiento de grandes vol\u00famenes de datos. Sin embargo, con la llegada de las arquitecturas serverless, surge la pregunta: \u00bfes siempre mejor utilizar Spark? En este post, exploraremos los principales resultados de un art\u00edculo presentado por el grupo de investigaci\u00f3n CloudLab de la URV, [&hellip;]<\/p>\n","protected":false},"author":9,"featured_media":1406,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_uag_custom_page_level_css":"","_swt_meta_header_display":false,"_swt_meta_footer_display":false,"_swt_meta_site_title_display":false,"_swt_meta_sticky_header":false,"_swt_meta_transparent_header":false,"footnotes":""},"categories":[41,113],"tags":[130,127,131,125],"class_list":["post-1405","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-big-data","category-cloud-computing","tag-faas","tag-pyspark","tag-serverless","tag-spark"],"jetpack_featured_media_url":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-content\/uploads\/2025\/07\/faas-spark.png","uagb_featured_image_src":{"full":["https:\/\/cloudlab.urv.cat\/catedracloud\/wp-content\/uploads\/2025\/07\/faas-spark.png",1536,1024,false],"thumbnail":["https:\/\/cloudlab.urv.cat\/catedracloud\/wp-content\/uploads\/2025\/07\/faas-spark-150x150.png",150,150,true],"medium":["https:\/\/cloudlab.urv.cat\/catedracloud\/wp-content\/uploads\/2025\/07\/faas-spark-300x200.png",300,200,true],"medium_large":["https:\/\/cloudlab.urv.cat\/catedracloud\/wp-content\/uploads\/2025\/07\/faas-spark-768x512.png",768,512,true],"large":["https:\/\/cloudlab.urv.cat\/catedracloud\/wp-content\/uploads\/2025\/07\/faas-spark-1024x683.png",1024,683,true],"1536x1536":["https:\/\/cloudlab.urv.cat\/catedracloud\/wp-content\/uploads\/2025\/07\/faas-spark.png",1536,1024,false],"2048x2048":["https:\/\/cloudlab.urv.cat\/catedracloud\/wp-content\/uploads\/2025\/07\/faas-spark.png",1536,1024,false]},"uagb_author_info":{"display_name":"Gerard Finol Pe\u00f1alver","author_link":"https:\/\/cloudlab.urv.cat\/catedracloud\/author\/gfinol\/"},"uagb_comment_info":0,"uagb_excerpt":"En posts anteriores hemos hablado sobre Spark y sus capacidades para el procesamiento de grandes vol\u00famenes de datos. Sin embargo, con la llegada de las arquitecturas serverless, surge la pregunta: \u00bfes siempre mejor utilizar Spark? En este post, exploraremos los principales resultados de un art\u00edculo presentado por el grupo de investigaci\u00f3n CloudLab de la URV,&hellip;","_links":{"self":[{"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/posts\/1405","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/users\/9"}],"replies":[{"embeddable":true,"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/comments?post=1405"}],"version-history":[{"count":2,"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/posts\/1405\/revisions"}],"predecessor-version":[{"id":1408,"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/posts\/1405\/revisions\/1408"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/media\/1406"}],"wp:attachment":[{"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/media?parent=1405"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/categories?post=1405"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/cloudlab.urv.cat\/catedracloud\/wp-json\/wp\/v2\/tags?post=1405"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}