Data mining and knowledge discovery

Entendemos data mining vs Big Data como una parte del proceso de descubrimiento de conocimiento a partir de grandes bases de datos, o KDD (Knowlegde Discovery in Data Bases).

“El data mining es el proceso de identificación de toda la información que es relevante, mientras que el Big Data es la tecnología capaz de capturar, gestionar y procesar grandes volúmenes de datos en un tiempo considerable y de forma eficiente.”

A continuación, se enumeran las fases del proceso de extracción de conocimiento:

  • Selección y preparación de los datos
  • Evaluación e interpretación del modelo
  • Integración

“Es muy importante aclarar desde un principio cuál es el objetivo del proyecto de data mining.”

La tarea principal de cada uno de los proyectos en general puede asimilarse a encontrar similitudes y agrupar objetos parecidos (clustering), clasificar objetos (árboles de decisión, redes neuronales), predecir, describir (redes bayesianas), y explicar.

Data mining vs Big Data: principales diferencias

Las técnicas de data mining posibilitan la consulta y el análisis, orientadas al descubrimiento de patrones, tendencias, perfiles y otras relaciones que sean de interés.

“En la actualidad, el data mining es la base del conocimiento empresarial.”

La tecnología Big Data es capaz de capturar, almacenar, gestionar y procesar de forma rápida y veraz ingentes cantidades de datos; y gracias al data mining, se pueden definir modelos y convertir dichos datos en un activo de gran valor.

Por otra parte, la tecnología de data warehousing está especialmente orientada a facilitar la localización de los datos dentro de una empresa, puesto que integra datos procedentes de los distintos departamentos de una empresa.

“La fase de preparación de datos puede consumir un 70% del esfuerzo en los proyectos de data mining de nueva implantación.”

En esta fase hay que asegurar la calidad de los datos, que éstos sean los necesarios, y que estén en la forma adecuada, mediante la aplicación de las siguientes técnicas:

  • Limpieza de datos
  • Transformación de datos
  • Reducción de la dimensionalidad

¿Necesitas más información?