Staging Area

Es un área temporal donde se recogen los datos que se necesitan de los sistemas origen. (Suele ser una copia del modelo E-R Operacional). Se recogen los datos estrictamente necesarios para las cargas, y se aplica el mínimo de transformaciones a los mismos. No se aplican restricciones de integridad ni se utilizan claves, los datos se tratan como si las tablas fueran ficheros planos. De esta manera se minimiza la afectación a los sistemas origen, la carga es lo más rápida posible para minimizar la ventana horaria necesaria, y se reduce también al mínimo la posibilidad de error. Una vez que los datos están traspasados, el DWH se independiza de los sistemas origen hasta la siguiente carga. Lo único que se suele añadir es algún campo que almacene la fecha de la carga.

Obviamente estos datos no van a dar servicio a ninguna aplicación de reporting, son datos temporales que una vez hayan cumplido su función serán eliminados, de hecho en el esquema lógico de la arquitectura muchas veces no aparece, ya que su función es meramente operativa.

Hay quien considera que la Staging Area abarca más de lo que he comentado, o incluso que este area engloba todo el entorno donde se realizan los procesos de ETL, yo me decanto por su utilización sólo como área temporal.

Existen situaciones, como por ejemplo la heterogeneidad de las fuentes de datos y la complejidad de los mismos, en las que en el momento de construir un data warehouse, es lícito plantearse el uso de una Staging Area.

Se entiende por Staging Area, por tanto, como el sistema que permanece entre las fuentes de datos y el data warehouse con el objetivo de:

  • Facilitar la extracción de datos (los procesos ETL) desde las fuentes de origen de carácter múltiple realizando un pretratado.
  • Realizar lo que se conoce como data cleansing (limpieza de datos).
  • Mejorar la calidad de datos.
  • Ser usado como cache de datos operacionales con el que posteriormente se realiza el proceso de Data Warehousing.
  • Uso de la misma para acceder en detalle a información no contenida en el Data warehouse.

¿Cuándo se estable conveniente usar una staging area en un proyecto de Data Warehousing? Depende de la estructura informacional de nuestra organización, así mismo de si es necesario algunos de los puntos anteriores.

Staging: la salvaguarda de los procesos ETL

Con el objeto de minimizar al máximo nivel los posibles errores o problemas en la fase de carga de los procesos ETL, normalmente se reserva un área de disco para poder recuperar los datos por etapas. Por eso podemos afirmar que el staging está estrechamente relacionado tanto con el gerenciamiento como con la recuperación de datos.

Funcionamiento del staging

  • En primer lugar, los datos son volcados por bloques o etapas y de forma independiente en un área del disco denominada staging area.
  • Posteriormente, se cargan los datos desde la staging area a su lugar o sistema de destino (data warehousing).

Ventajas de utilizar una staging area

  • Permite independizar el proceso de carga por bloques o etapas. Lo cual es muy útil y práctico cuando se trabaja con millones de datos, ya que evita tener que reiniciar el proceso entero en caso de error o avería. Por ejemplo, si se produjese un corte eléctrico, solo habría que repetir el volcado de datos del bloque específico en el que se ha producido la incidencia, estando el resto de información a buen recaudo y segura en el área de staging.
  • Si se implementa correctamente, posibilita reiniciar las distintas fases del proceso ETL de manera independiente. Esto significa que si, por ejemplo, falla el proceso de transformación, bastaría con volver a repetir esta fase, pero no sería necesario repetir la etapa anterior: la de extracción.
  • La compilación de los distintos bloques o etapas del proceso de staging puede incluso adaptarse a las necesidades de los clientes, aunque siempre que esté contemplado previamente en el proceso general del ETL.
  • Al tratarse de un disco físicamente independiente, en ningún caso afecta ni ralentiza otros procesos del sistema.

Principales características de un proceso de staging

  • Únicamente el desarrollador del ETL debería tener acceso al área de staging, tanto para salvaguardar la confidencialidad de los datos, como para evitar complicaciones derivadas de que, por error, alguien intentase acceder a los datos a través del staging area , lo cual podría generar incidencias.
  • A los usuarios nunca se les da acceso a esta área especial de staging area, aunque sí a los que tengan el perfil de administrador, no porque en realidad lo necesiten sino por si surgiese algún problema o imprevisto.
  • El staging se utiliza tanto durante el proceso de extracción-transformación como en el de transformación-carga.
  • Los procesos de staging, inevitablemente, aumentan la duración total del proceso ETL.

Un proceso altamente recomendable pese a suponer un costo adicional de tiempo y recursos

Si bien tiene un costo adicional de recurso y tiempo total de duración del proceso ETL, el área de staging es fundamental y ampliamente utilizada para permitir un óptimo gerenciamiento de los procesos ETL.
© 2020 Empresa. P° de la Castellana 79, Madrid, 28046
Creado con Webnode
¡Crea tu página web gratis! Esta página web fue creada con Webnode. Crea tu propia web gratis hoy mismo! Comenzar