Archivos de índices

From ABCD Wiki
Revision as of 11:05, 21 December 2013 by Guilda (talk | contribs)
Jump to: navigation, search

Los archivos de datos (mst y xrf) solo permiten la recuperación de registros en forma secuencial por número MFN. Como se requieren otras formas de acceso la información, por ejemplo, autores, países, materias, etc., es necesario contar con una estructura adicional que permita, dada una palabra clave o una fórmula de búsqueda, ubicar los registros que contienen los términos solicitados. Esta estructura es lo que bajo Cds/isis se denomina Listas Invertidas.

El archivo invertido de las estructuras CDS/Isis está formado en realidad por 6 archivos físicos, cinco de los cuales contienen los términos de búsqueda del diccionario (organizados como un árbol B*) y el sexto contiene la lista de apuntadores asociadas a cada término.

A fin de optimizar el almacenamiento en disco, se mantienen dos árboles B* por separado: uno para los términos de hasta 30 caracteres (almacenados en los archivos .N=01 y .L01) y otro para los términos de más de 30 y hasta 60 caracteres(almacenados en los archivos .N02 y .L02). El archivo .CNT contiene campos de control para ambos árboles B*). En cada archivo del árbol B* el archivo .N0x contiene los nodos del árbol y el archivo .L0x contiene las hojas. Los registros de las hojas apuntan al lugar donde se encuentran los apuntadores que contienen la información para localizar los registros (postings) en la base de datos. Este archivo se identifica con la extensión .IFP . La relación física entre estos archivos puede representarse de la siguiente manera:

centro


La relación física en los seis archivos que forman la lista invertida está dada por un apuntador, el cual representa la posición relativa del registro al que se está seńalando. Una dirección relativa es el número ordinal del registro en un determinado archivo (por ejemplo, el primer registro es el registro 1, el segundo es el registro 2, etc.). El archivo CNT apunta al archivo .N0x; el archivo .N0x apunta al L0x y el archivo .L0x apunta al .IFP. Dado que el .IFP es un archivo cuyos registros no tienen necesariamente la misma longitud, el apuntador de .L0x a .IFP tiene dos componentes: el número del bloque y el desplazamiento dentro del bloque, cada uno expresado como un entero.


Formato del archivo .IFP El archivo .IFP contiene la lista de apuntadores (postings) para cada término del diccionario. Cada apuntador consta de 4 elementos para identificar el registro desde el cual se genera la clave:

MFNMfn del registroTAGIdentificador del campoOCCNúmero de ocurrencia del campo desde el cual se extrae la claveCNTNúmero secuencial del término en el campo Cada término tendrá tantos apuntadores como campos lo hayan referido en la base de datos. La lista de apuntadores es almacenada en secuencia ascendente de MFN/TAG/OCC/CNT. Cuando se carga la lista invertida por un proceso de Generación completa cada lista está formada por un o más segmentos adyacentes. Conforme se realizan actualizaciones, pueden irse creando segmentos adicionales cuando sea necesario agregar nuevos apuntadores. En este caso se crea un nuevo segmento vinculándolo a los otros segmentos de modo que se mantenga la secuencia MFN/TAG/OCC/SEQ. Cada vez que ocurre una división de este tipo, los apuntadores del segmento donde debía insertarse el nuevo apuntador, son distribuídos equitativamente entre este segmento y el nuevo recién creado. Los nuevos segmentos son siempre creados al final del archivo. Las claves de generan mediante según las especificaciones contenidas en un llamado Tabla de Extracción de Campos (.fst) el cual contiene especifica cómo se va a generar, para cada campo, los puntos de acceso a la base de datos.Existen 8 técnicas de indización diferentes para la obtención de las claves, de forma tal de satisfacer todos los requerimientos de recuperación de información a aplicar sobre una base de datos. Las listas invertidas se actualizan normalmente en el procedimiento de ingreso de los datos. Sin embargo, existen situaciones de obligan a regenerar estos archivos (corrupción de índices, carga de grandes lotes de información en la base de datos, cambios en las estrategias de indización). Por ello,es necesario activar procesos especiales para el mantenimiento de los índices, para procesar toda la base de datos y construir nuevamente las listas invertidas.Este proceso se denomina Generación completa de la lista invertida y en forma esquemática consta de los siguientes pasos:

Generación del archivo de claves sin clasificar En este primer paso se lee cada uno de los registros de la base de datos y se aplica sobre cada campo las técnicas de indización especificadas en la Tabla de Extracción de Campo (.fst). Como resultado de este proceso de generan dos archivos: .LN1 con los términos menores a iguales a 10 caracteres; y .LN2 con los términos mayores a 10 caracteres. Ambos archivos (.LN1 y .LN2) son archivos del tipo TXT por lo que pueden ser visualizado por un editor de textos. Ejemplo del archivo .LN1 generado para los Mfn's 1-5 de la base de datos CDS

1 24 1 1 TECHNIQUES1 24 1 8 INDIVIDUAL1 24 1 9 PLANTS2 70 1 1 BOSIAN, G.2 24 1 2 CONTROLLED2 24 1 3 CLIMATE2 24 1 6 PLANT2 24 1 7 CHAMBER2 24 1 10 INFLUENCE3 70 1 1 BOSIAN, G.3 24 1 1 CONTROL3 24 1 3 CONDITIONS3 24 1 6 PLANT3 24 1 7 CHAMBER3 24 1 8 FULLY3 24 1 9 AUTOMATIC3 24 1 10 REGULATION3 24 1 12 WIND3 24 1 13 VELOCITY3 24 1 16 RELATIVE3 24 1 17 HUMIDITY3 24 1 19 CONFORM3 24 1 22 FIELD3 24 1 23 CONDITIONS3 69 1 2 MOISTURE3 69 1 4 WIND3 69 1 6 ECOSYSTEMS4 70 1 2 WENT, F.W.4 24 1 2 ELECTRIC4 24 1 3 HYGROMETER4 24 1 4 APPARATUS4 24 1 6 MEASURING4 24 1 7 WATER4 24 1 8 VAPOUR4 24 1 9 LOSS4 24 1 11 PLANTS4 24 1 14 FIELD4 69 1 3 MOISTURE5 70 1 1 GALE, J.5 24 1 1 ANTI5 24 1 5 RESEARCH5 24 1 6 TOOL5 24 1 9 STUDY5 24 1 12 EFFECTS5 24 1 14 WATER5 24 1 15 STRESS5 24 1 17 PLANT5 24 1 18 BEHAVIOUR Ejemplo del archivo .LN2 generado para los Mfn's 1-5 de la base de datos CDS

1 70 1 1 MAGALHAES, A.C.1 70 1 2 FRANCO, C.M.1 24 1 4 MEASUREMENT1 24 1 6 TRANSPIRATION1 69 1 1 PLANT PHYSIOLOGY1 69 1 2 PLANT TRANSPIRATION1 69 1 3 MEASUREMENT AND INSTRUMENTS2 24 1 12 ASSIMILATION2 24 1 14 TRANSPIRATION2 69 1 1 PLANT EVAPOTRANSPIRATION3 24 1 14 TEMPERATURE3 24 1 21 MICROCLIMATIC3 69 1 1 PLANT PHYSIOLOGY3 69 1 3 TEMPERATURE3 69 1 5 MEASUREMENT AND INSTRUMENTS4 70 1 1 GRIEVE, B.J.4 69 1 1 HYGROMETERS4 69 1 2 PLANT TRANSPIRATION4 69 1 4 WATER BALANCE5 70 1 2 POLJAKOFF-MAYBER, A.5 24 1 2 TRANSPIRANTS5 69 1 1 PLANT PHYSIOLOGY5 69 1 2 SOIL MOISTURE5 69 1 3 PLANT TRANSPIRATION5 69 1 4 EVAPOTRANSPIRATION5 69 1 5 MEASUREMENT AND INSTRUMENTS Las primeras cuatro columnas contienen la información que dará orígen al apuntador del archivo .IFP. Se leen los valores de: MFN TAG OCC SEQ. La salida está ordenada por MFN ya que proviene de la lectura secuencial del archivo maestro. Clasificación de las claves Como la lista invertida se presenta clasificada por órden alfabético del claves, el segundo paso consiste en el ordenamiento de las claves alfabéticamente. Como resultado se obtienen los archivos .LK1 y .LK2 los cuales contiene las mismas claves que .LN1 y .LN2, solo que ordenadas ascendentemente por la clave. Ejemplo del archivo .Lk1 generado para los Mfn's 1-5 de la base de datos CDS

5 24 1 1 ANTI4 24 1 4 APPARATUS3 24 1 9 AUTOMATIC5 24 1 18 BEHAVIOUR2 70 1 1 BOSIAN, G.3 70 1 1 BOSIAN, G.2 24 1 7 CHAMBER3 24 1 7 CHAMBER2 24 1 3 CLIMATE3 24 1 3 CONDITIONS3 24 1 23 CONDITIONS3 24 1 19 CONFORM3 24 1 1 CONTROL2 24 1 2 CONTROLLED3 69 1 6 ECOSYSTEMS5 24 1 12 EFFECTS4 24 1 2 ELECTRIC3 24 1 22 FIELD4 24 1 14 FIELD3 24 1 8 FULLY5 70 1 1 GALE, J.3 24 1 17 HUMIDITY4 24 1 3 HYGROMETER1 24 1 8 INDIVIDUAL2 24 1 10 INFLUENCE4 24 1 9 LOSS4 24 1 6 MEASURING3 69 1 2 MOISTURE4 69 1 3 MOISTURE2 24 1 6 PLANT3 24 1 6 PLANT5 24 1 17 PLANT1 24 1 9 PLANTS4 24 1 11 PLANTS3 24 1 10 REGULATION3 24 1 16 RELATIVE5 24 1 5 RESEARCH5 24 1 15 STRESS5 24 1 9 STUDY1 24 1 1 TECHNIQUES5 24 1 6 TOOL4 24 1 8 VAPOUR3 24 1 13 VELOCITY4 24 1 7 WATER5 24 1 14 WATER4 70 1 2 WENT, F.W.3 24 1 12 WIND3 69 1 4 WIND Ejemplo del archivo .LK2 generado para los Mfn's 1-5 de la base de datos CDS

2 24 1 12 ASSIMILATION5 69 1 4 EVAPOTRANSPIRATION1 70 1 2 FRANCO, C.M.4 70 1 1 GRIEVE, B.J.4 69 1 1 HYGROMETERS1 70 1 1 MAGALHAES, A.C.1 24 1 4 MEASUREMENT1 69 1 3 MEASUREMENT AND INSTRUMENTS3 69 1 5 MEASUREMENT AND INSTRUMENTS5 69 1 5 MEASUREMENT AND INSTRUMENTS3 24 1 21 MICROCLIMATIC2 69 1 1 PLANT EVAPOTRANSPIRATION1 69 1 1 PLANT PHYSIOLOGY3 69 1 1 PLANT PHYSIOLOGY5 69 1 1 PLANT PHYSIOLOGY1 69 1 2 PLANT TRANSPIRATION4 69 1 2 PLANT TRANSPIRATION5 69 1 3 PLANT TRANSPIRATION5 70 1 2 POLJAKOFF-MAYBER, A.5 69 1 2 SOIL MOISTURE3 24 1 14 TEMPERATURE3 69 1 3 TEMPERATURE5 24 1 2 TRANSPIRANTS1 24 1 6 TRANSPIRATION2 24 1 14 TRANSPIRATION4 69 1 4 WATER BALANCE Las primeras cuatro columnas contienen la información que dará orígen al apuntador del archivo .IFP. Se leen los valores de: MFN TAG OCC SEQ. La salida está ordenada por CLAVE.