Galo Mauricio López-Sevilla y Ricardo Patricio Medina-Chicaiza
ISSN 2477-9024. Innova Research Journal (Mayo-Agosto, 2024). Vol. N9, No. 2, pp. 40-57
sin un esquema particular definido", siendo así un gran almacén de datos sin ninguna
categorización o pauta estricta.
Como resultado, un lago de datos se convierte en un repositorio centralizado que almacena
una gran cantidad de datos en su forma original y cruda, sin procesarlos ni transformarlos. Es así
como, proviene de diversas fuentes, incluidos sensores, redes sociales, sistemas transaccionales y
dispositivos móviles. De esta forma, las empresas podrán acceder y explotar una gran cantidad de
información en tiempo real; y a la vez almacenar información estructurada, no estructurada y
semiestructurada (Jarke et al., 2013). Entiéndase, por estructurada aquella información que maneja
un esquema determinado; no estructurado aquel que no sigue un esquema o modelo de datos, pero
si mantiene una estructura interna; y semiestructurada aquella que se organiza mediante etiquetas
o tags que permiten crear y agrupar un conjunto de datos (Madera y Laurent, 2019).
De manera que, un lago de datos se utiliza para apoyar procesos tradicionales y modernos
de extracción, transformación y carga de datos (ETL) (Romero y Melendres, 2023), así también
para realizar análisis avanzados, minería de datos, aprendizaje automático y otras aplicaciones de
inteligencia artificial (Grossman, 2019; Sakr y Gaber, 2019). Por tanto, existen tecnologías para
construir a un lago de datos, incluyéndose Hadoop, Apache Spark y Amazon S3. En base aquello,
entre los beneficios que sobresalen están la escalabilidad, flexibilidad y costos más bajos en el
almacenamiento y procesamiento de grandes cantidades de datos (Lorenzo y López, 2022).
En teoría, lago de datos permite un acceso fácil y rápido a todos los datos del negocio
(desde cualquier fuente y en cualquier formato), y también la experimentación, descubrimiento y
exploración (Balseca, Colina, y Espinoza, 2021). Si se explota correctamente, un lago de datos se
puede obtener una amplia gama de beneficios, entre ellos la facilidad de uso y accesibilidad (Goyal
y Malviya, 2023). Según Rawat, Doku, y Garuba (2019), la gestión de la calidad del dato y la
privacidad siguen siendo desafíos significativos en un lago de datos, al contrario de los enfoques
tradicionales de la gestión de datos, como los data warehouses (Kimball y Ross, 2013).
En este sentido, el análisis de datos en un lago de datos ofrece numerosas ventajas en
términos de eficiencia y productividad, permite a las organizaciones tomar decisiones más
informadas y precisas, así como identificar oportunidades y desafíos en tiempo real, convirtiéndose
en una solución cada vez más relevante y necesaria para el análisis de información.
De este modo, se plantea como objetivo mostrar una visión cuantitativa de la producción
científica sobre lago de datos publicada en la base de datos Scopus, con la intensión de identificar
tendencias y patrones en la investigación de este tema, así como reseñar autores y publicaciones
más influyentes en el campo, para con ello proporcionar un contenido general de la evolución
histórica de la investigación, lo cual es valioso para comprender el estado actual y el futuro de este
campo. Por lo que, es imprescindible señalar que este trabajo sigue un procedimiento para alcanzar
los resultados asociados a las preguntas de investigación delineadas durante el planteamiento del
objeto de estudio; detallándose en los siguientes apartados.
Esta obra se comparte bajo la licencia Creative Common Atribución-No Comercial 4.0 International (CC BY-NC 4.0)
Revista de la Universidad Internacional del Ecuador. URL: https://www.uide.edu.ec/
42