DataMining con Excel

1. INTRODUCCIÓN

En este documento se presenta una Muestra Piloto de Minería der Datos con Excel, en base a un complemento de Sql Server.

La ventaja de Excel sobre Sql Server para Data Mining es que proporciona muchas más herramientas para realizar pronósticos más avanzados tales como:

- Gráfico de Precisión

- Posibilidad de calcular la Probabilidad sobre el objetivo que nos planteamos.

El software en el que nos vamos a apoyar para esta Muestra Piloto, es un Add-Ins complemento de Sql Server para Minería de Datos en Excel

2. OBJETO DE LA MUESTRA PILOTO

El entendimiento de las necesidades para esta muestra piloto se resume en los siguientes objetivos a cubrir:
▪ Creación y explicación de un Árbol de Decisiones.
▪ Creación y explicación de un Gráfico de Precisión
▪ Creación y explicación de un Resultado de Predicciones
▪ Creación y explicación de un Análisis Clúster

3. DATOS DE LA MUESTRA PILOTO

El tipo de tabla para la realización de un estudio de Data Mining, es una tabla de máximo número de columnas.
Para esta Muestra Piloto nos hemos basado en una muestra/Tabla de Datos Reales de McDonald de 2270 registros y 20 columnas. Éste cantidad de información No es representativa para realizar un estudio de Data Mining; pero como hemos comentado se trata de una Muestra Piloto, la cual estará empobrecida por la escasez de información.

El contenido de la tabla es el siguiente:

4. VARIABLE DE CLASIFICACIÓN

 La Variable de Clasificación es aquella columna de la tabla en base a la cual se va a realizar el estudio y posteriormente se elegirán una serie de columnas o variables que puedan tener relación con la Variable de Clasificación y así poder determinar un Patrón de comportamiento o una Relación.

En el caso que nos aplica, hemos elegido dos grupos diferentes para la realización de los modelos por las dificultades de muestreo con las que nos hemos encontrado debido a la escasez de información de la que disponemos.

 Grupo-1: Con Variable de Clasificación "TIPO DE SERVICIO"

 Grupo-2: Con Variable de Clasificación "TIPO DE VENTA"

5. MODELOS

Para los diferentes Modelos nos vamos a basar en el grupo 1 e intentaremos analizar "¿QUÉ TIPO DE SERVICIO OBTIENE MÁS CASH FLOW?", lo que definitivamente se traduce en ingresos.

Lo primero que vamos a hacer es CLASIFICAR la información en función a dicho grupo para establecer el Modelo de Minería de Datos.

5.1 DECISION TREE 

Realizamos el modelo en base al 60% de las observaciones el cual nos va a permitir establecer patrones de conducta y establecer relaciones entre ellos y resulta como sigue:

La tabla anterior refleja la Leyenda de la Minería de Datos:

 El Color Azul de la barra horizontal superior, nos indican los niveles de rango (Alto, bajo,....)

 A la izquierda se reflejan los datos de los distintos Tipos de Servicio (Kiosco, McAuto,....) junto al número de observaciones respecto del total de cada tipo existentes en la muestra así como la probabilidad de éstos y los escenarios.

o Los datos de "Kiosko", nos indica que son 130 las ventas producidas por este tipo Tipo de Servicio.

o Los datos de "McAuto", nos indica que son 242 las ventas producidas por este tipo Tipo de Servicio.

o Los datos de "McCafé", nos indica que son 9 las ventas producidas por este tipo Tipo de Servicio.

o Los datos de "Mostrador", nos indica que se han realizado 521 ventas desde el Mostrador habitual de venta.

o Los datos de "Tomador", nos indica que son 1 las ventas producidas por este tipo Tipo de Servicio.

o Los datos de "Walk Thru", nos indica que son 5 las ventas producidas por este tipo Tipo de Servicio.

En el "Árbol de Decisión", se pueden ver los motivos de los resultados de la tabla anterior.

¿Por qué motivos se pueden dar esos resultados?, tenemos todos los casos en el árbol, vamos a observar la red de dependencias.

➢ RED DE DEPENDENCIA: La Red de Dependencia, nos indica que variables, están relacionadas con la Variable de Clasificación "TIPO DE SERVICIO". En este caso el modelo sólo ha relacionado "Franja Horaria" y "Forma de Pago", y en base a este resultado haremos las interpretaciones estadísticas necesarias.

La barra vertical de la izquierda, indica la fuerza o peso de cada variable respecto de la Variable de Clasificación. Es decir, indica la fuerza de la dependencia para realizar una compra.

En el siguiente gráfico se refleja que la primera fuerza para ventas es la "Forma de Pago" y luego se basa en la "Franja Horaria".

➢ NIVELES DEL ÁRBOL DE DECISIÓN: Si resumimos el árbol al primer nivel podremos analizar desde un inicio.

 NIVEL-1: El diagrama anterior, nos muestra los escenarios totales. Indica el Total de ventas por Tipo de Servicio y se deduce por tanto que el grueso de las ventas, se realizan a través del Servicio de Mostrador.

 NIVEL-2: El Nivel 2 del Árbol de Decisión, nos indica que,

En la Forma de Pago "Pago tarjeta - Integrado Caja", ha habido 201 casos de los cuales, la venta desde Mostrador sigue copando el grueso de éstas; pero obsérvese que en este caso le sigue muy de cerca la venta desde Kiosko. Mientras que si interpretamos el Caso Contrario, i.d., el resto de los Tipos de Servicio en su conjunto, con un total de 707 casos, este margen se dilata considerablemente al doble. Obsérvese el Histograma en ambos casos.


que en este caso le sigue muy de cerca la venta desde Kiosko. Mientras que si interpretamos el Caso Contrario, i.d., el resto de los Tipos de Servicio en su conjunto, con un total de 707 casos, este margen se dilata considerablemente al doble. Obsérvese el Histograma en ambos casos.

 NIVEL-3: El Nivel 3 del Árbol de Decisión, nos indica que, bajo la misma Forma de Pago y en la Franja Horaria "Madrugada" con un total de 16 casos, el Tipo de Servicio McAuto lidera las ventas. Para el CC, con un total de 691 casos y con un total de 691 casos, la venta por Mostrador despunta, siendo incluso más del doble que McAuto.

 NIVEL-4: El Nivel 4 del Árbol de Decisión, nos indica que para los casos siguientes,

FORMA DE PAGO not = 'Pago Tarjeta - Integrado caja'

Y FRANJA_HORARIA not = 'Madrugada'

Y FRANJA_HORARIA not = 'Desayuno (Breakfast)'

La venta por Mostrador sigue liderando las ventas, seguida a la mitad por McAuto.

Mientras que para,

FORMA DE PAGO not = 'Pago Tarjeta - Integrado caja'

Y FRANJA_HORARIA = 'Desayuno (Breakfast)'

Es en el Desayuno donde el Tipo de Servicio de Mostrador despunta decididamente con un 80,34% de las ventas.

5.2 ACCURACY CHART (Gráfico de Precisión) 

El Gráfico de Precisión, nos va a permitir medir el rendimiento de los modelos con respecto a los datos de prueba de la estructura de minería.

Según nuestros datos el gráfico resultante es el siguiente:

En dicho gráfico, se pueden observar tres datos importantes para nuestro modelo. Las tres líneas (Roja, Verde y Azul) nos da la siguiente información:

 Línea Azul: nos indica que no tenemos un modelo da Minería de Datos establecido.

 Línea Roja: representa el Modelo Ideal para toda empresa. Dicho modelo estará por encima de todas las expectativas, es decir, para el caso que nos aplica,

 Línea Verde: representa a nuestro Modelo de Minería de Datos. Se asemeja un poco al modelo ideal; pero hasta cierto punto pues vemos que luego se va alejando del Modelo Óptimo.

A continuación presentamos la tabla de medición por percentiles respecto del modelo ideal.

5.3 RESULTADOS PREDICIONES

En Minería de Datos, podemos crear Predicciones también o podríamos ver las predicciones para así poder tener un alcance de la probabilidad de que ocurra un suceso.

Para el caso que aplica, podríamos predecir las probabilidades de éxito o venta de determinados Productos en determinados Restaurantes, en una determinada Franja Horaria y bajo una Forma de Pago concreta en base a un porcentaje.

A continuación representamos en la siguiente tabla una muestra del estudio de las Predicciones Estándar ordenadas de mayor a menor:

Según los datos representados en la anterior tabla, se observa que la Mayor Probabilidad de éxito se encuentra para la siguiente combinación de parámetros:

- Restaurante: Leganés BP

- Producto: PATATAS PEQ - Value

- Franja Horaria: Madrugada

Para el cc y según los datos representados en la anterior tabla, se observa que la Menor Probabilidad de éxito (0,0341) se encuentra para la siguiente combinación de parámetros:

- Restaurante: Hospitalet Bellvitge

- Producto: CERVEZA MED MCBC

- Franja Horaria: Desayuno (Breakfast)

5.4 ANÁLISIS CLUSTER 

Los métodos estadísticos multivariantes y el análisis multivariante son herramientas estadísticas que estudian el comportamiento de tres o más variables al mismo tiempo. Se usan principalmente para buscar las variables menos representativas para poder eliminarlas, simplificando así modelos estadísticos en los que el número de variables sea un problema y para comprender la relación entre varios grupos de variables. El análisis clúster clasifica una muestra de entidades (individuos o variables) en un número pequeño de grupos de forma que las observaciones pertenecientes a un grupo sean muy similares entre sí y muy disimilares del resto El Análisis Clúster, por tanto, se basa en un Modelo de Agrupamiento o Asociación.

Los Perfiles de Clúster, para nuestra muestra es el siguiente:

En la ventana de la izquierda se observa el Patrón de Colores y en la ventana de la derecha su propia definición.

Buscaremos por tanto el candidato más predominante para que realice una compra. Para el caso que nos aplica, se traduce en la búsqueda de cuáles son las condiciones o parámetros óptimos para que se produzca una venta.

En realidad para un realizar un buen Análisis Clúster, nos deberíamos basar en más de un clúster; pero nuestro muestreo sólo nos ofrece uno , de modo que intentaremos realizar el estudio basándonos sólo en éste.

En el siguiente gráfico vemos que el Tipo de Servicio MOSTRADOR, tiene la máxima probabilidad de ejecutar una venta con un 56,5 % de probabilidad de que se ejcute una venta a través de este Tipo de Servicio.

Pero, en realidad, lo que nos debemos cuestionar es "¿cuáles son las características óptimas asociadas a esa venta?".....

 La "Forma de Pago" debería ser en Euros.

5.1 CONCLUSIONES

Podemos concluir, recomendando que para realizar una correcta Minería de Datos, debemos basarnos en una bbdd lo más grande posible, i.d., estamos hablando de un Mercado de Datos con una base de datos gigante, con una multitud de datos en los cuales nos vamos a basar para desarrollar los Modelos de Datos o Algoritmos sobre los cuales se puedan establecer patrones de comportamiento, establecer correspondencias o relaciones y poder así determinar cuál ha sido la máxima venta.

© 2020 Empresa. P° de la Castellana 79, Madrid, 28046
Creado con Webnode
¡Crea tu página web gratis! Esta página web fue creada con Webnode. Crea tu propia web gratis hoy mismo! Comenzar