1

4.2 Tipos de datos

Adquisición y utilización de datos

La adquisición de datos constituye la actividad más básica en la monitorizacion del proceso. Al mismo tiempo, ésta es la primera fase en la compleja operación que significa la supervisión basada en conocimiento. La cantidad y la calidad de los datos de entrada constituyen un factor decisivo para posibilitar la posterior consecución de conocimiento útil y la toma correcta de decisiones. Por consiguiente, la adquisición de datos normalmente debe completarse con una fase de pre-procesado, orientada hacia la generación de gran cantidad de datos de calidad a partir de las entradas brutas. Las operaciones típicas pueden incluir filtrado, selección, fusión, corrección, etc.,

Destaquemos que los datos que provienen del proceso hacia la unidad de monitorización y supervisión pueden usarse por lo menos tres formas distintas:

después del pre-procesado inicial y posiblemente la posterior transformación, pueden ser usados directamente por operadores humanos para supervisar y tomar decisiones en, prácticamente, tiempo real,

después del pre-procesado inicial, pueden procesarse hacia una forma aceptable por los sistemas basados en conocimiento que realizan las funciones de supervisión; así pueden usarse inmediatamente para procesar el conocimiento, por ejemplo para la inferencia en un sistema de supervisión basado en reglas,

después del pre-proceso inicial, pueden guardarse para su análisis posterior así como para rastrear el proceso (como una "caja negra"') para buscar las posibles causas de averias, etc.

Dependiendo de su uso, pueden imponerse diversos requisitos a esta fase de pre-procesado. Por ejemplo, en caso del uso directo por operadores humano, puede ser necesaria una reducción significativa del tamaño de los datos, para evitar la llamado ''desbordamiento cognitivo''. Aún más, probablemente se desee una forma de visualización de la información específica, leíble y transparente, de fácil uso. Otra operación típica es la abstracción numérica de datos, útil para ganar comprensibilidad: es sabido que las personas diferencian mejor entre 2 y 9 niveles de signos, mientras que frecuentemente se usan siete (por ejemplo, NB-negativo grande, NM-negativo medio, NS-negativo pequeño, Z-alrededor del cero, PS-positivo pequeño, PM-positivo medio, PB-positivo grande).

Tipos de datos

Antes de definir los problemas básicos acerca de la adquisición de la información y la calidad resultante de los datos, resumamos brevemente los tipos de datos que pueden ser considerados como entrada para el sistema de supervisión:

Datos cuantitativos, datos obtenidos a partir de alguna medida. Los siguientes subtipos son posibles:

datos realmente numéricos: valores medidos de ciertas variables del sistema importantes desde el punto de vista del usuario; este tipo de datos constituye el más típico de entre todas las entradas. Principalmente son representados por números reales (y por consiguiente sujetos siempre a errores, imprecisos).

datos numéricos enteros: representados mediante números enteros que pueden ser "totalmente precisos", obtenidos contando objetos, elementos, repeticiones de eventos, etc.,

datos binarios: valores de señales binarias, normalmente denotadas con 0 y 1; típicas en circuitos digitales o en sistemas con interpretaciones lógicas; este tipo de valores también se denota como {verdadero, falso} o {V, F}.

Datos cualitativos, (también llamados descriptivos), imposibles (o no prácticos) de medir o contar de manera directa (por ejemplo debido a su complejidad), se refieren a propiedades caracterizadas mediante expresiones lingüísticas. Aquí puede distinguirse entre:

Datos cualitativos ordenados: Este tipo de datos representa ciertos valores variables de forma "poco precisa", cualitativa; típicamente, los datos de salida del sensor pueden tomar varios valores codificados simbólicamente, normalmente ordenados de forma lineal. Si estos datos son el resultado de medidas directas es gracias a la construcción específica del sensor, en el que los responsable de la señal de salida combinada son subsensores responsables de detectar ciertos niveles. Este tipo de datos puede venir por ejemplo de relés múltiples, o de instrumentos cuya medida esta separada en zonas (temperatura, presión, caudal, etc.).

Datos simbólicos: Este tipo de datos toma la forma de etiquetas lingüísticas, con la intención de codificar ciertos rasgos característicos de los componentes del proceso. El caso más típico consiste en codificar el valor de ciertos atributos (por ejemplo color=rojo). Este tipo de datos puede provenir de sensores que se activen al darse cierto valor del atributo, o como resultado del pre-procesado de datos provenientes de sensores más complejos, incluso sensores de imagen. Otra fuente puede ser simplemente un operador humano.

Datos orientados a aplicaciónes específicas; formas especializas de datos que normalmente requieren herramientas y métodos de procesado específicos del dominio. Pueden distinguirse:

imagen: datos numéricos específicos, muy complejo y que provienen de cámaras de vídeo (normalmente CCD). Merecen un tratamiento especial, ya que el pre-procesado y posterior análisis requieren herramientas bastante específicas.

sonido: de hecho, es una señal real continua; sin embargo, como requiere métodos normalmente específicos, merece un tratamiento separado,

conocimiento como datos: en ciertos casos específicos la entrada "datos" puede tomar la forma de conocimiento, por ejemplo hechos, relaciones entre elementos, formulas lógicas o grafos semánticos. Éste puede ser el caso de sistemas de supervisión más complejos que supervisen otros sistemas complejos equipado con sus propias bases de conocimiento, por ejemplo, en control, y generando y usando por si mismos conocimiento representado simbólicamente.

A pesar de la caracterización general de posibles tipos de datos presentada, a menudo, para simplificar, el término datos cualitativos se refiere a datos ordenados en cierto sentido (datos cualitativos ordenados) mientras todos los otros datos no ordenados son llamados simbólicos. Por simplicidad, a lo largo de este libro se mantendrá esta convención.

Notemos que para los datos cuantitativos es posible, normalmente, aplicar operaciones aritméticas típicas, como suma, resta, etc. Es más, la idea de distancia esta bien definida, para cualquier par de elementos puede calcularse un número real no negativo que caracterice la diferencia objetiva entre estos elementos.

Prácticamente cualquier tipo particular de datos presentado anteriormente (quizá excepto los últimos) puede usarse para formar estructuras más complejas, como vectores (de una dimensión, de longitud determinada; la referencia a un elemento es a través de su posición), listas (sucesión lineal de elementos de longitud ilimitada; debido a su estructura recursiva, sólo el primer elemento de una lista -llamado cabeza de la lista- puede ser referenciado directamente, la referencia a los otros elementos se realiza de forma recursiva, a través de suprimir cabezas dejando el resto de la lista -su cola-), tablas, matrices (formas de representación tabular de dos o más dimensiones) y otras estructuras tipo registro o marcos (prácticamente cualquier posible estructura compuesta de campos conectados de forma más compleja; cualquier campo tiene, normalmente, por lo menos nombre, tipo, y valor, pero también puede tener algunas propiedades particulares -por ejemplo valor por defecto- o procedimientos especializados asignados a él).

Dependiendo del tipo de conocimiento de entrada, pueden ocurrir determinados problemas. Cualquier tipo de datos requiere un pre-procesado específico. Es importante comprender que los datos adquiridos durante la supervisión no están libres de determinados errores y problemas. Es importante distinguir y comprender estos problemas. Sólo en este caso pueden emprenderse el descubrimiento e identificación de los problemas relativos a determinados datos. Finalmente, cuando los problemas específicos se han identificado, pueden tomarse decisiones que involucren posibles correcciones, actualizaciones y usos.

Para ser más precisos al hablar sobre los datos, la calidad de los datos y finalmente la generación y representación del conocimiento, debe aceptarse algún modelo de representación para que sea posible una discusión bien fundamentada. A continuación se recuerdan los enfoques mas comunes basados en atributos y bases de datos relacionales y se perfilan la lógica, los grafos, los conjuntos difusos, etc

Dado que los datos numéricos, simbólicos y cualitativos parecen ser tipos de datos de entrada muy comunes, se pondrá atención especial a construir un modelo de representación común. Los problemas específicos de adquisición de datos y pre-procesado se discutirán sobre la base de este modelo.