1

6.1 De los datos al conocimiento

Pasos básicos desde los datos al conocimiento

Contrariamente a los datos típicamente representados por una gran cantidad de ítems de estructura simple uniformemente representados (típicamente una inmensa colección de ellos), cada uno de ellos teniendo separadamente cierto valor con poca información, puede considerarse el conocimiento como un conjunto de expresiones con estructura interna, cada uno de las cuales esta relacionada con las otras de alguna manera, y conteniendo cantidades relativamente grandes de información comparativamente a su tamaño. Los datos son normalmente extensos y redundantes. Representan extensionalmente y explícitamente algunos fenómenos de interés y sus propiedades. El conocimiento, por otro lado, es mucho más conciso, intensivo, y raramente redundante (la redundancia de conocimiento puede ser considerada como un problema; incluso las bases de datos relacionales se planifican normalmente para evitar redundancia). Los fenómenos de interés se caracterizan de forma intensiva e implícita mediante el conocimiento formalmente especificado.

Para preparar el conocimiento de entrada de los sistemas de supervisión basados en conocimiento, la gran cantidad inicial de datos debe transformarse a una forma de conocimiento más concisa y significativa. Las siguientes actividades constituyen las operaciones básicas para pasar del nivel de los datos al nivel del conocimiento, del nivel de la información numérica extensa al nivel semántico, simbólico, cualitativo y conciso del conocimiento:

Preselección de datos numéricos pertinentes y necesarios; los datos innecesarios simplemente se descartan o se rechazan,

Fusión de datos (de varias fuentes diferentes a una sola fuente),

Abstracción del datos y generalización, generando objetos más abstractos (por ejemplo valores cualitativos), encontrando sus propiedades y descripciones generales,

Simbolizacion, generación de conocimiento codificado simbólicamente, normalmente encontrando las relaciones entre el objeto abstraído y estados,

Análisis posterior, refinamiento y comprobación de propiedades del conocimiento generado.

Aunque no siempre se aplican todas las operaciones, pueden considerarse como básicas, pasos genéricos, constituyendo un posible procedimiento de transformación de datos-en-conocimiento. Aquí se presentan en el ámbito abstracto, independientemente del dominio y las herramientas; para su aplicación práctica, las operaciones particulares deben traducirse y codificarse de forma específica según el formalismo de representación de conocimiento, los datos adquiridos y el nivel de abstracción.

Abstracción y generalización

Presentemos un poco mas formalmente las ideas de abstracción y generalización, como aplicaciones en el dominio del procesado de datos y conocimiento. La abstracción se significa principalmente por ser el proceso de pasar de una representación detallada orientada a datos a otra orientada a conocimiento de nivel superior. La abstracción se logra a través de ciertas operaciones específicas en los datos, principalmente borrar ciertos ítems y fusionar otros. La Generalización es la relación del conocimiento más abstracto con el más detallado, una relación entre dos ítems de representación de conocimiento (fórmulas). El conocimiento más general se obtiene como resultado de operaciones de abstracción realizadas en los datos iniciales. Así, la abstracción puede percibirse como una operación que lleva a la generación de una representación de conocimiento más general, describiendo una clase más amplia de ítems que anteriormente. El concepto formalmente introducido de generalización permite manejar ideas algo intuitivas acerca de la abstracción de datos.

Las nociones presentadas involucran representación de conocimiento y se refieren a la comparación de expresiones de representación de conocimiento diferentes con respecto a los conjuntos de objetos que satisfacen las descripciones. Se involucra la interpretación de formulas con respecto a algún universo de discurso y, simultáneamente, la comparación de ellas con respecto a su alcance y a la exactitud del conocimiento representado. A grandes rasgos, se define y se analiza una relación de orden con respecto a la ‘cantidad de información’ representada por una fórmula.

La misma idea de noción presentada de generalización consiste en la interpretacion de formulas lógicas o cualquier otra expresión de representación de conocimiento en términos de conjuntos de objetos descritos (normalmente estados del universo de discurso) en lugar de considerar las formulas como los axiomas y teoremas de algunos sistemas formalizados. Consideremos dos formulas u otras expresiones de representación de conocimiento y . Se considera que las dos expresiones anteriores describen sistemas dinámicos (universos, mundos). Así, a cualquiera de las expresiones puede asociársele un conjunto físico de estados para los que la fórmula es válida. A grandes rasgos, cuanto más grande es el conjunto más general se considera la fórmula adjunta. Una fórmula generaliza otra fórmula si describe un conjunto más grande de estados con respecto al universo de discurso. Más formalmente, sean y los conjuntos de estados u otros ítems descritos por las correspondientes formulas. Se dice que es más general que, , si y sólo si . Intuitivamente, la idea de generalización se presenta de forma gráfica en la siguiente figura.

La relación presentada es válida en el conjunto de todas las formulas lógicas de primer orden. De hecho, si y sólo si Æ, la fórmula más detallada conlleva lógicamente la más general. Más adelante se presentan esquemas de verificación basados en modos de inferencia específicos para formulas simples y normales. En secciones posteriores se discuten las aplicaciones en sistemas dinámicos basados en conocimiento. La idea principal del concepto propuesto de interpretación lógica puede explicarse más precisamente.

Destaquemos que, a grandes rasgos, si una fórmula contiene información detallada (muchos hechos, por ejemplo), entonces el conjunto correspondiente de estados es bastante pequeño, ya que toda la información debe ser verdad en cualquiera de los estados. Al contrario, si una fórmula contiene información parcial (sólo varios hechos), puede realmente describir un conjunto numeroso de estados, ya que el requisito de información verdadera en cualquiera de los estados es bastante débil. Puede decirse directamente que una fórmula más general describe más estados que una menos general.

Para proporcionar algunas intuiciones acerca de la noción de generalización pueden mostrarse las maneras básicas de hacer más general a una fórmula, de resumir la información Éstas son:

Eliminando una condición (e.g. un literal) en cualquier fórmula conjuntiva,

Agregando una posibilidad extra en una fórmula disyuntiva,

Convirtiendo una constante en una variable (implícitamente existencialmente cuantificada).

Examinemos las posibilidades anteriores de una manera más detallada. Sean y fórmulas lógicas; entonces:

eliminando una condición en cualquier fórmula conjunta se hace más general. Igualmente:

agregando una fórmula (disyuntiva) se hace más general. La tercera posibilidad consiste en reemplazar una constante (o un término) por una variable y aplica a lógica de predicados o un calculo similar.

donde X es una variable reemplazando alguna constante a. Otras posibilidades incluyen extensiones de un solo valor o conjunto a un conjunto más grande o intervalos cerrados.

Las tres vías de generalizar una fórmula constituyen las posibilidades más básicas y naturales. Otra posibilidad proviene de los métodos de inferencia lógica.

Se definirá una relación de la equivalencia con respecto al grado de generalidad como sigue. Dos fórmulas y se dice que son igualmente generales () si y sólo si y . Intuitivamente, dos fórmulas igualmente generales tienen el mismo "poder expresivo", describen el mismo conjunto de estados del mundo o sistema considerado. Puede demostrarse que la relación de generalidad es igual a una relación de equivalencia (es reflexiva, simétrica y transitiva) mientras que la relación del generalización es una relación del orden parcial (es reflexiva, antisimétrica y transitiva).

La definición presentada de generalización no proporciona ningún método constructivo para verificar si una fórmula dada es más general que otra fórmula - verificar si una fórmula proviene lógicamente de otra es, en general, un problema de cálculo muy complejo. Sin embargo, en muchos casos, puede observarse que, gracias a la forma simple y regular de las fórmulas positivas simples conjuntivas, es posible verificar si la generalización se cumple mediante el simple análisis de las dos fórmulas. Se ha presentado la manera de verificar generalización para el formalismo lógico y la representación de conocimiento atributiva.

Problemas en la adquisición de datos

Consideremos la representación tabular de datos, donde los datos están en tablas como en bases de datos correlativas; esta forma de representación de datos también puede considerarse igual a la representación atributiva. Esta representación es popular y ampliamente aceptada. Es entendida fácilmente por los expertos y, además, pueden aplicarse el motor y todas las nociones bien establecidas de las bases de datos correlacionales. A continuación, se intentaran tratar los problemas acerca de la adquisición de información que usa la forma tabular y las nociones básicas del dominio de las bases de datos. Una ventaja de este enfoque consiste en la posibilidad de aplicar operaciones normales de bases de datos en algunos pasos del preprocesado. Los problemas con los datos de entrada pueden ser clasificados según el esquema siguiente, escueto pero comprensible:

Sobrecarga de datos, demasiados datos. Este caso normalmente es resultado de capturar diferentes tipos de datos sin un plan específico de su uso. El problema es que no todos los datos son pertinentes a los problemas considerados, y su procesado consume tiempo. Además, ocupan innecesariamente mucha capacidad de almacenamiento. Pero el problema más importante es que cuando se proporciona a un operador humano tal cantidad de datos puede causar ''sobrecarga cognitiva'' y crear dificultades de percepción, comprensión y decisiones erróneas. Lo mismo puede suceder para un sistema de supervisión basado en conocimiento, incapaz de tratar con datos abundantes. A continuación se tratan algunos aspectos específicos de la sobrecarga de datos y algunas maneras básicas de tratarla:

Demasiados registros capturados: En la base de datos hay demasiados archivos, que son innecesarios o imposibles de procesar. Si algunos de los registros se duplican (los duplicados normalmente no ocurren en bases de datos relacionales; sin embargo, si se permiten, pueden estar presentes y los registros subsecuentes representan ciertas medidas de las características de estado; en el caso de que el número de duplicados no sea importante, por ejemplo si no estamos interesados en calcular características globales como valor medio, normalmente pueden eliminarse registros duplicados), pueden eliminarse duplicados de cualquier registro. Los registros de interés pueden ser seleccionados mediante la operación de selección con la condición de selección F. Sea B la base de datos inicial. La operación de preprocesado puede denotarse como donde B´ es la base de datos resultante con el número de registros reducido.

Demasiados atributos: En este caso hay demasiados atributos, algunos de los cuales probablemente no son pertinentes al problema considerado, funcionalmente dependiente de algún subconjunto de atributos. Dependiendo del propósito, los atributos no pertinentes pueden eliminarse, y de estar forma desaparecen algunas columnas de la base de datos. Esto puede denotarse como una operación de proyección p en el conjunto seleccionado de atributos. La base de datos resultante es . Por supuesto, determinar qué atributos son no pertinentes puede ser un problema importante, pero ninguna solución general parece posible (sin embargo, en ciertos casos, los métodos estadísticos basados en el análisis de correlación pueden proporcionar alguna indicación útil.). En este tipo de operaciones reduce la dimensionalidad del problema.

Datos subresumidos: similar al primer caso donde hay registros repetidos, sin embargo, en el caso de datos subresumidos el problema consiste no en la duplicación directa de un registro, sino en un registro para el que algunos valores de atributo son idénticos, pero el resto de ellos (al menos uno) no se especifican (miden, detectan). Este registro proporciona de hecho menos información, es menos específico que otro con datos completos. La eliminación de archivos menos específicos requiere operaciones específicas, verificando si existe alguna substitución , tal que para algunos registros r y r´. En este caso r´ puede eliminarse. Este caso es similar al de la subsumpción de fórmulas.

Demasiada capacidad de la base de datos: éste es el caso específico en que el tamaño potencial de la base de datos requerida sobrepasaría las capacidades de almacenamiento y procesando de información. Esto puede ocurrir en ciertas aplicaciones on-line, sobre todo en tiempo real, suficientemente complejas para tener un número grande de sensores y tiempo de muestreo muy pequeño. En estos casos el tamaño potencial de banco de datos generado después de, por ejemplo, varias horas podrían ser inmenso, más allá de las capacidades de almacenamiento. Pueden usarse tres técnicas principales evitar tales situaciones, procesado y transformación en una representación simbólica más concisa, selección dinámica de datos adquiridos, y fusión de datos. La opción específica depende y su aplicación depende del dominio y las tareas de cada caso.

Datos perdidos: en este caso algunos de los datos necesarios o útiles para la tarea de supervisión desaparecen. Es probable que ocurra lo siguiente:

Registros perdidos: algunos estados no son grabados, y ciertos archivos desaparecen; esto significa simplemente una cantidad demasiado pequeña de datos. Deben recogerse nuevos datos o deben proporcionarse de una fuente diferente.

Atributos perdidos: desaparecen algunos atributos relevantes (columnas enteras). Esto normalmente significa que el problema de adquisición de datos no ha sido definido apropiadamente. Si los datos no pueden proporcionarse desde bases de datos auxiliares, (por ejemplo realizando un operación de unión), entonces, normalmente, deben repetirse las medidas para todo el conjunto de atributos de interés.

Valores perdidos para ciertos atributos en ciertos registros: un caso típico de datos incompletos. Probablemente el conocimiento y la decisión generados no sean de alta calidad. Si hay ninguna posibilidad de completar la base de datos (mediante mediciones auxiliares, edición, interpolación, etc.), sólo pueden aplicarse técnicas débiles (eliminación de registros repetidos y subresumidos).

Datos fracturados, múltiples fuentes de datos: en este caso los datos provienen de varias fuentes; los problemas son principalmente debidos a la diferente representación de la estructura y precisión, por ejemplo:

bases de datos incompatibles: significa que la estructura (el esquema relacional) de la base de datos es incompatible; para simplemente poder añadir una base de datos a otra, sus esquemas correlativos deben ser idénticos, , donde para . En ciertos casos puede ser útil una operación de la proyección.

datos incompatibles: los datos que provienen de varias fuentes pueden ser incompatibles con respecto al tamaño, precisión, tipo, granularidad, representación, código, dimensión, etc., Debe prestarse atención a la posible transformación y ajuste.

Datos incorrectos: este caso es un muy serio y difícil de eliminar. Los datos incorrectos, adulterados, defectuosos, etc. pueden tener su fuente en varios problemas.

datos corruptos: puede incluir sensores defectuosos, ruido y desviaciones, fallos en pre-procesado inicial, codificación defectuosa, asignacion incorrecta del tipo, etc., etc. Algunos métodos para tratar con datos defectuosos consisten en el descubrimiento de datos fuera-de-dominio (por ejemplo verificando si el valor medido está dentro de un determinado intervalo), verificación del tipo, y aplicación de filtros (por ejemplo eliminando valores máximos y mínimos, o tomando la forma de restricciones para los datos).

datos incoherentes: éste es el caso más interesante; como los datos representan una ''imagen'' factible de proceso, no deben ser en general incoherentes. La inconsistencia de datos normalmente significaría que algunos de los datos son incorrectos. Puede darse cualquiera de los casos anteriores, o el caso de aplicación de una mala metodología a la adquisición de datos y pre-procesado,

Datos indisponibles o fuera de tiempo: en ciertos procesos es imposible medir algún tipo necesario de datos o sólo puede conocerse después de un periodo largo de tiempo (por ejemplo la calidad final de cemento sólo se conoce 30 día después del día de producción). En tales casos puede aplicarse técnicas de estimación de parámetros y los datos retardados pueden evaluarse a partir de otros parámetros, muy a menudo, de forma simplificada o cualitativa. Los datos retardados también pueden usarse eficazmente en un proceso repetido manteniendo inalterados todos los otros parámetros pero analizando aquel con influencia en la característica específica.