Difference between revisions of "Archivos de índices"

From ABCD Wiki
Jump to: navigation, search
Line 5: Line 5:
  
 
A fin de optimizar el almacenamiento en disco, se mantienen dos árboles B* por separado: uno para los términos de hasta 30 caracteres (almacenados en los archivos .N=01 y .L01) y otro para los términos de más de 30 y hasta 60 caracteres(almacenados en los archivos .N02 y .L02). El archivo .CNT  contiene campos de control para ambos árboles B*). En cada archivo del árbol B* el archivo .N0x contiene los nodos del árbol y el archivo .L0x contiene las hojas. Los registros de las hojas apuntan al lugar donde se encuentran los apuntadores que contienen la información para localizar los registros (postings) en la base de datos. Este archivo se identifica con la extensión .IFP .
 
A fin de optimizar el almacenamiento en disco, se mantienen dos árboles B* por separado: uno para los términos de hasta 30 caracteres (almacenados en los archivos .N=01 y .L01) y otro para los términos de más de 30 y hasta 60 caracteres(almacenados en los archivos .N02 y .L02). El archivo .CNT  contiene campos de control para ambos árboles B*). En cada archivo del árbol B* el archivo .N0x contiene los nodos del árbol y el archivo .L0x contiene las hojas. Los registros de las hojas apuntan al lugar donde se encuentran los apuntadores que contienen la información para localizar los registros (postings) en la base de datos. Este archivo se identifica con la extensión .IFP .
 +
La relación física entre estos archivos puede representarse de la siguiente manera:
  
 +
[[Archivo:Ifp.jpg|centro]]
  
La relación física entre estos archivos puede representarse de la siguiente manera:
 
  
[[Archivo:Ifp.jpg|centro]]
+
La relación física en los seis archivos que forman la lista invertida está dada por un apuntador, el cual representa la posición relativa del registro al que se está seńalando. Una dirección relativa es el número ordinal del registro en un determinado archivo (por ejemplo, el primer registro es el registro 1, el segundo es el registro 2, etc.). El archivo CNT apunta al archivo .N0x; el archivo .N0x apunta al L0x y el archivo .L0x apunta al .IFP. Dado que el .IFP es un archivo cuyos registros no tienen necesariamente la misma longitud, el apuntador de .L0x a .IFP tiene dos componentes: el número del bloque y el desplazamiento dentro del bloque, cada uno expresado como un entero.

Revision as of 11:03, 21 December 2013

Los archivos de datos (mst y xrf) solo permiten la recuperación de registros en forma secuencial por número MFN. Como se requieren otras formas de acceso la información, por ejemplo, autores, países, materias, etc., es necesario contar con una estructura adicional que permita, dada una palabra clave o una fórmula de búsqueda, ubicar los registros que contienen los términos solicitados. Esta estructura es lo que bajo Cds/isis se denomina Listas Invertidas.

El archivo invertido de las estructuras CDS/Isis está formado en realidad por 6 archivos físicos, cinco de los cuales contienen los términos de búsqueda del diccionario (organizados como un árbol B*) y el sexto contiene la lista de apuntadores asociadas a cada término.

A fin de optimizar el almacenamiento en disco, se mantienen dos árboles B* por separado: uno para los términos de hasta 30 caracteres (almacenados en los archivos .N=01 y .L01) y otro para los términos de más de 30 y hasta 60 caracteres(almacenados en los archivos .N02 y .L02). El archivo .CNT contiene campos de control para ambos árboles B*). En cada archivo del árbol B* el archivo .N0x contiene los nodos del árbol y el archivo .L0x contiene las hojas. Los registros de las hojas apuntan al lugar donde se encuentran los apuntadores que contienen la información para localizar los registros (postings) en la base de datos. Este archivo se identifica con la extensión .IFP . La relación física entre estos archivos puede representarse de la siguiente manera:

centro


La relación física en los seis archivos que forman la lista invertida está dada por un apuntador, el cual representa la posición relativa del registro al que se está seńalando. Una dirección relativa es el número ordinal del registro en un determinado archivo (por ejemplo, el primer registro es el registro 1, el segundo es el registro 2, etc.). El archivo CNT apunta al archivo .N0x; el archivo .N0x apunta al L0x y el archivo .L0x apunta al .IFP. Dado que el .IFP es un archivo cuyos registros no tienen necesariamente la misma longitud, el apuntador de .L0x a .IFP tiene dos componentes: el número del bloque y el desplazamiento dentro del bloque, cada uno expresado como un entero.