Que es el Gobierno de Datos en Big Data
El gobierno de datos
consiste en la capacidad de una organización para gestionar el conocimiento que
tiene sobre su información de forma que pueda responder a preguntas tales como
¿qué sabemos sobre nuestra información?, ¿de dónde provienen esos datos?, ¿están
estos datos alineados con nuestra política de empresa?. El gobierno de datos
proporciona un enfoque holístico para administrar, mejorar y aprovechar la
información de forma que pueda ayudarnos a ganar percepción y generar confianza
en decisiones y operaciones empresariales y gubernamentales.
La importancia del gobierno
de datos.
Lograr una buen gobierno y
gestión de datos empresariales implica abordar la gestión de los datos como lo
que son en realidad, un activo de gran valor tanto a nivel operativo como para
crear valor de mercado y convertirlos en una información crítica para el
negocio. Tal y como señala David Newman, vicepresidente de investigación de
Gartner, "un alto porcentaje de organizaciones de todo el mundo se dedican
a la gestión y desarrollo de los datos como un activo de la empresa".
La función de gobierno de
datos es conseguir que todas las funciones de datos se realicen del modo más
eficiente, cumpliendo con lo planeado. Se trata, en suma, de asegurar que los
datos cumplen con las demandas, al tiempo que se consigue una reducción de
costes en lo que respecta a su gestión y a su protección, éste último un
aspecto importante en lo que respecta al cumplimiento de normativas y a la
preservación de la privacidad.
Por qué es necesario un
gobierno de datos
"Los datos son el
activo más importante de un organización y, sin normas y sin calidad de datos,
la organización no funciona", apunta Valeh Nazemoff, vicepresidente senior
y coofundador de Acolyst, la misma necesidad de aplicar una política de data
governance demuestra la importancia y el valor de los datos dentro de la
organización.
David Waddington,
vicepresidente senior y cofundador de The Information Difference Ldt. centra
las ventajas que aporta implementar una gobernabilidad de datos en nueve aspectos:
Apoyar las iniciativas de
BI/Data Warehousing.
Apoyar una iniciativa MDM.
Facilitar la migración de
datos heredados.
Cumplir con la normativa y
requisitos legislativos.
Reducir el riesgo
empresarial.
Mejorar la flexibilidad
empresarial y la agilidad de negocio.
Apoyar actualizaciones de
software operativo.
Reducir los costos.
Apoyar el manejo de fusiones
y adquisiciones.
Todas ellas, qué duda cabe,
son interesantes razones que, por si solas o en conjunto, justifican el
gobierno de datos. Además de éstas, destacamos las siguientes:
Accesibilidad de los datos:
Conseguimos una mayor accesibilidad de los datos que, a su vez, serán oportunos
y confiables, siempre en función de la política definida y de un significado
global.
Asegurar que los datos
cumplen con las demandas: Alude a la oportunidad y calidad de los datos como
resultado de la aplicación de un proyecto de gobierno de datos.
Gestionar los datos como un
activo: La gestión y desarrollo de los datos como un activo ayudará a
satisfacer a usuarios internos y clientes, así como a tomar mejores y más
rápidas decisiones, pues contaremos con información confiable y accesible
cuando la necesitemos.
Gobierno de datos por que lo
necesito
Asegurar la integridad: El
gobierno de datos evita y previene incoherencias entre distintos sistemas o
aplicaciones, con la ventaja que, por ejemplo, ello supone para que no falten
datos a la hora de operar, de hacer evaluaciones o de ofrecer un determinado
servicio o información.
Responder a las demandas
actuales: Establecer un marco para la gobernanza de datos nos ayuda a conseguir
una mayor disponibilidad, facilidad de uso, consistencia, integridad y
seguridad de los datos, requisitos clave para apoyar las iniciativas más
actuales de BI, que normalmente requieren aplicaciones rápidas, con un acceso
en tiempo real a los datos.
Agregar valor: Un plan de data
governance, por último, ayuda a definir y establecer los diferentes tipos de
comunicación necesaria para agregar valor a la organización a partir de una
visión global capaz de transformar el negocio en su conjunto. Los equipos de
gestión podrán tomar decisiones informadas basadas en datos más fiables. No
olvidemos que la información crítica es relevante, si no esencial, para tomar
decisiones.
Cuando el gobierno de datos
es deficiente o simplemente se carece de él, los datos no se integran en un concepto
holístico del conocimiento de la información y su control, que entonces se
realiza por departamentos o por sistemas, se convierte en una tarea pendiente.
Por lo tanto, se pierde ese enfoque o visión general, esenciales para lograr
una necesaria coherencia.
Dentro de este contexto,
ignorar el carácter decisivo del gobierno de datos es una vía más directa hacia
el descontrol en la gestión de los datos. Por el contrario, el data governance
(el corazón de la gestión datos), cumple una función de control y coordinación
interactiva entre las distintas áreas de la empresa, definiendo roles y
responsabilidadades y estableciendo estándares, políticas y procesos de forma
consensuada.
Fuente imagen: Stuart Miles /
FreeDigitalPhotos.net
Fuente: edx.org
Big data, machine learning y data science en python
ResponderBorrar-----------------------
El libro está dirigido aquellos lectores que estén trabajando en proyecto relacionados con big data y busquen identificar las características de una solución de Big Data, los datos asociados a estas soluciones, la infraestructura requerida, y las técnicas de procesamiento de esos datos. Entre los principales objetivos podemos destacar:
-Introducir los conceptos de ciencias de datos y machine learning.
-Introducir las principales librerías que podemos encontrar en Python para aplicar técnicas de machine learning a los datos.
- Dar a conocer los pasos para construir un modelo de machine learning, desde la adquisición de datos, pasando por la generación de funciones, hasta la selección de modelos.
-Dar a conocer los principales algoritmos para resolver problemas de machine learning.
- Introducir scikit-learn como herramienta para resolver problemas de machine learning.
- Introducir pyspark como herramienta para aplicar técnicas de big data y map-reduce.
- Introducir los sistemas de recomendación basados en contenidos.
https://i.ibb.co/VMssJGg/bigdata1.png
El libro trata de seguir un enfoque teórico-práctico con el objetivo de afianzar los conocimientos mediante la creación y ejecución de scripts desde la consola de Python. Además, complementa los contenidos con un repositorio alojado en el Material Adicional donde se pueden encontrar los ejemplos que se analizan a lo largo del libro para facilitar al lector las pruebas y asimilación de los contenidos teóricos. Desde la web del libro podrá descargar los ejemplos y ejerciciosque se desarrollan en el libro lo que facilitara al lector a asimilar lo aprendido.
https://i.ibb.co/Dt5dKCJ/bigdata2.png
1.Introducción a Big Data
2.Arquitecturas Big Data
3.Bases de datos para Big Data
4.Introducción a ciencia de datos y ML
5.Tratamiento de datos con Python
6.Scikit-learn como librería de ML
7.Redes neuronales artificiales
8.Plataforma Hadoop
9.Procesamiento distribuído con Apache Spark
10.PySpark como librería de procesamiento distribuído
11.Entornos de ejecución Spark
12.Mllib como librería de Machine Learning
13.Sistemas de recomendación