Adquisición y utilización de datos
La adquisición de datos constituye la actividad más básica en la monitorizacion del proceso. Al mismo tiempo, ésta es la primera fase en la compleja operación que significa la supervisión basada en conocimiento. La cantidad y la calidad de los datos de entrada constituyen un factor decisivo para posibilitar la posterior consecución de conocimiento útil y la toma correcta de decisiones. Por consiguiente, la adquisición de datos normalmente debe completarse con una fase de pre-procesado, orientada hacia la generación de gran cantidad de datos de calidad a partir de las entradas brutas. Las operaciones típicas pueden incluir filtrado, selección, fusión, corrección, etc.,
Destaquemos que los datos que provienen del proceso hacia la unidad
de monitorización y supervisión pueden usarse por lo menos
tres formas distintas:
Dependiendo de su uso, pueden imponerse diversos requisitos a esta
fase de pre-procesado. Por ejemplo, en caso del uso directo por operadores
humano, puede ser necesaria una reducción significativa del tamaño
de los datos, para evitar la llamado ''desbordamiento cognitivo''. Aún
más, probablemente se desee una forma de visualización de
la información específica, leíble y transparente,
de fácil uso. Otra operación típica es la abstracción
numérica de datos, útil para ganar comprensibilidad: es sabido
que las personas diferencian mejor entre 2 y 9 niveles de signos, mientras
que frecuentemente se usan siete (por ejemplo, NB-negativo grande, NM-negativo
medio, NS-negativo pequeño, Z-alrededor del cero, PS-positivo pequeño,
PM-positivo medio, PB-positivo grande).
Tipos de datos
Antes de definir los problemas básicos acerca de la adquisición
de la información y la calidad resultante de los datos, resumamos
brevemente los tipos de datos que pueden ser considerados como entrada
para el sistema de supervisión:
A pesar de la caracterización general de posibles tipos de
datos presentada, a menudo, para simplificar, el término datos cualitativos
se refiere a datos ordenados en cierto sentido (datos cualitativos ordenados)
mientras todos los otros datos no ordenados son llamados simbólicos.
Por simplicidad, a lo largo de este libro se mantendrá esta convención.
Notemos que para los datos cuantitativos es posible, normalmente, aplicar operaciones aritméticas típicas, como suma, resta, etc. Es más, la idea de distancia esta bien definida, para cualquier par de elementos puede calcularse un número real no negativo que caracterice la diferencia objetiva entre estos elementos.
Prácticamente cualquier tipo particular de datos presentado anteriormente (quizá excepto los últimos) puede usarse para formar estructuras más complejas, como vectores (de una dimensión, de longitud determinada; la referencia a un elemento es a través de su posición), listas (sucesión lineal de elementos de longitud ilimitada; debido a su estructura recursiva, sólo el primer elemento de una lista -llamado cabeza de la lista- puede ser referenciado directamente, la referencia a los otros elementos se realiza de forma recursiva, a través de suprimir cabezas dejando el resto de la lista -su cola-), tablas, matrices (formas de representación tabular de dos o más dimensiones) y otras estructuras tipo registro o marcos (prácticamente cualquier posible estructura compuesta de campos conectados de forma más compleja; cualquier campo tiene, normalmente, por lo menos nombre, tipo, y valor, pero también puede tener algunas propiedades particulares -por ejemplo valor por defecto- o procedimientos especializados asignados a él).
Dependiendo del tipo de conocimiento de entrada, pueden ocurrir determinados problemas. Cualquier tipo de datos requiere un pre-procesado específico. Es importante comprender que los datos adquiridos durante la supervisión no están libres de determinados errores y problemas. Es importante distinguir y comprender estos problemas. Sólo en este caso pueden emprenderse el descubrimiento e identificación de los problemas relativos a determinados datos. Finalmente, cuando los problemas específicos se han identificado, pueden tomarse decisiones que involucren posibles correcciones, actualizaciones y usos.
Para ser más precisos al hablar sobre los datos, la calidad de los datos y finalmente la generación y representación del conocimiento, debe aceptarse algún modelo de representación para que sea posible una discusión bien fundamentada. A continuación se recuerdan los enfoques mas comunes basados en atributos y bases de datos relacionales y se perfilan la lógica, los grafos, los conjuntos difusos, etc
Dado que los datos numéricos, simbólicos y cualitativos
parecen ser tipos de datos de entrada muy comunes, se pondrá atención
especial a construir un modelo de representación común. Los
problemas específicos de adquisición de datos y pre-procesado
se discutirán sobre la base de este modelo.