Extracción de Conocimiento: Fundamentos de Minería de Datos y el Proceso KDD


Introducción al Descubrimiento de Conocimiento y Minería de Datos

El descubrimiento de conocimiento en bases de datos, conocido actualmente como minería de datos, es una disciplina que ha crecido enormemente en los últimos años. Las organizaciones han comprendido que los grandes volúmenes de datos que residen en sus sistemas pueden ser analizados y explotados para obtener nuevo conocimiento a partir de los mismos.

La Minería de Datos o Explotación de Información es el proceso de extraer conocimiento útil, comprensible y novedoso de grandes volúmenes de datos. Su principal objetivo es encontrar información oculta o implícita que no es posible obtener mediante métodos estadísticos convencionales.

La entrada al proceso de minería está formada, generalmente, por registros provenientes de bases de datos operacionales o de bodegas de datos (Data Warehouse).

El resultado del proceso es un conjunto de patrones (modelos) que se convertirán en información valiosa para la toma de decisiones.

Metodologías en Minería de Datos

Los esfuerzos en el área de la minería de datos se han centrado, en su gran mayoría, en la investigación de técnicas para la explotación de información y extracción de patrones (como árboles de decisión, análisis de conglomerados y reglas de asociación). Sin embargo, se ha profundizado en menor medida en cómo ejecutar este proceso hasta obtener el «nuevo conocimiento», es decir, en las metodologías.

Las metodologías permiten llevar a cabo el proceso de minería de datos de forma sistemática y estructurada. Ayudan a las organizaciones a entender el proceso de descubrimiento de conocimiento y proveen una estructura para la planificación y ejecución de los proyectos. Una metodología no solo define las fases de un proceso, sino también las tareas que deben realizarse y cómo llevarlas a cabo.

El Proceso KDD (Knowledge Discovery in Databases)

El Descubrimiento de Conocimiento en Bases de Datos (KDD, del inglés Knowledge Discovery in Databases) constituye el primer modelo que define el descubrimiento de conocimiento en bases de datos como un proceso, compuesto por distintas etapas y fases que van desde la preparación de los datos hasta la interpretación y difusión de los resultados.

En 1996, Fayyad definió el KDD como el «proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y, en última instancia, entendibles en los datos». El término proceso se refiere a la secuencia iterativa de etapas o fases que lo componen. Los patrones deben ser válidos para nuevos datos, novedosos en el sentido de que deben aportar nuevo conocimiento al dominio de aplicación, y potencialmente útiles para el usuario final o el responsable de la toma de decisiones.

El KDD es un proceso iterativo e interactivo. Es iterativo, ya que la salida de alguna de las fases puede requerir retroceder a pasos anteriores y porque a menudo son necesarias varias iteraciones para extraer conocimiento de alta calidad. Es interactivo porque el usuario, o más generalmente un experto en el dominio del problema, debe participar en la preparación de los datos y la validación del conocimiento extraído.

Fases del Proceso KDD

El modelo de proceso KDD se resume en las siguientes cinco fases:

  • Selección: Elección de los datos sobre los que se trabajará.
  • Pre-procesamiento: Tratamiento de los datos incorrectos y ausentes.
  • Transformación: Adecuación de los datos y reducción de la dimensionalidad.
  • Minería de datos: Obtención de los patrones de interés según la tarea de minería (descriptiva o predictiva).
  • Interpretación y Evaluación: Valoración del nuevo conocimiento en el dominio de aplicación.

Foco en la Fase de Selección

A continuación, nos centraremos específicamente en la etapa de selección del proceso KDD. Esta etapa consiste en la elección de las fuentes de datos que se utilizarán, su integración y la selección de las observaciones/atributos que conformarán la vista minable. Aunque no es estrictamente necesario, en este paso podría requerirse la construcción de un almacén de datos (Data Warehouse).

Minería de Datos: Conceptos Clave, Técnicas y Sistemas

Actualmente, los datos son la materia prima bruta de toda organización. A partir del momento en que el usuario les atribuye algún significado especial, es decir, comienzan a tomar gran relevancia, se convierten en información. Cuando esa información se enriquece con experiencia y contexto, nos referimos al conocimiento. El conocimiento se deriva de la información, así como la información se deriva de los datos.

La capacidad de generar y almacenar información ha crecido considerablemente en los últimos tiempos. Se estima que la cantidad de datos almacenados en bases de datos a nivel mundial se duplica cada 20 meses. Por ello, hoy las organizaciones disponen de grandes cantidades de datos almacenados y organizados, pero no pueden analizarlos eficientemente en su totalidad.

Algunos datos estadísticos indican que aproximadamente el 80% del conocimiento útil se obtiene mediante las técnicas avanzadas que abordaremos, mientras que el 20% restante corresponde a información ya conocida por la empresa.

El Descubrimiento de Conocimiento en Bases de Datos (KDD) tiene como objetivo procesar automáticamente grandes cantidades de datos para encontrar conocimiento útil en ellos, permitiendo así al usuario utilizar esta valiosa información para su beneficio. Por ello, este documento explora los conceptos, el proceso ETL (Extracción, Transformación y Carga), las técnicas y los sistemas involucrados en la minería de datos, herramientas que permiten a las instituciones tomar mejores decisiones.

Bases de Datos Deductivas

El interés en los Sistemas de Gestión de Bases de Datos Deductivas (SGBDD) tiende a incrementarse conforme se amplía su campo de aplicación (por ejemplo, en Gestión o Sistemas Expertos). Los estudios relativos a estos sistemas comenzaron hace algunos años, inspirándose inicialmente en las técnicas desarrolladas en Inteligencia Artificial dentro del marco de los sistemas «Pregunta-Respuesta», adaptándolas a las limitaciones específicas de las bases de datos.

Un SGBD deductivo es un sistema que permite derivar nueva información a partir de la introducida explícitamente en la base de datos por el usuario. Este sistema maneja la perspectiva según la teoría de las demostraciones de una base de datos y, en particular, es capaz de deducir hechos a partir de la base de datos extensional (es decir, las relaciones base), aplicando a esos hechos axiomas deductivos o reglas de inferencia especificadas. Esta función deductiva se realiza mediante la adecuada explotación de ciertos conocimientos generales relativos a la información contenida en la base.

Dejar un Comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *