Difference between revisions of "Archivos de índices"

From ABCD Wiki
Jump to: navigation, search
(Página creada con « Los archivos de datos (mst y xrf) solo permiten la recuperación de registros en forma secuencial por número MFN. Como se requieren otras formas de acceso la información...»)
 
Line 2: Line 2:
 
Los archivos de datos (mst y xrf) solo permiten la recuperación de registros en forma secuencial por número MFN. Como se requieren otras formas de acceso la información, por ejemplo, autores, países, materias, etc., es necesario contar con una estructura adicional que permita, dada una palabra clave o una fórmula de búsqueda, ubicar los registros que contienen los términos  solicitados. Esta estructura es lo que bajo Cds/isis se denomina '''Listas Invertidas'''.
 
Los archivos de datos (mst y xrf) solo permiten la recuperación de registros en forma secuencial por número MFN. Como se requieren otras formas de acceso la información, por ejemplo, autores, países, materias, etc., es necesario contar con una estructura adicional que permita, dada una palabra clave o una fórmula de búsqueda, ubicar los registros que contienen los términos  solicitados. Esta estructura es lo que bajo Cds/isis se denomina '''Listas Invertidas'''.
  
El archivo invertido de las estructuras CDS/Isis está formado en realidad por 6 archivos físicos, cinco de los cuales contienen los términos de búsqueda del diccionario (organizados como un árbol B*) y el sexto contiene la lista de apuntadores asociadas a cada término.  
+
El archivo invertido de las estructuras CDS/Isis está formado en realidad por 6 archivos físicos, cinco de los cuales contienen los términos de búsqueda del diccionario (organizados como un [[árbol B*]]) y el sexto contiene la lista de apuntadores asociadas a cada término.  
  
 
A fin de optimizar el almacenamiento en disco, se mantienen dos árboles B* por separado: uno para los términos de hasta 30 caracteres (almacenados en los archivos .N=01 y .L01) y otro para los términos de más de 30 y hasta 60 caracteres(almacenados en los archivos .N02 y .L02). El archivo .CNT  contiene campos de control para ambos árboles B*). En cada archivo del árbol B* el archivo .N0x contiene los nodos del árbol y el archivo .L0x contiene las hojas. Los registros de las hojas apuntan al lugar donde se encuentran los apuntadores que contienen la información para localizar los registros (postings) en la base de datos. Este archivo se identifica con la extensión .IFP .
 
A fin de optimizar el almacenamiento en disco, se mantienen dos árboles B* por separado: uno para los términos de hasta 30 caracteres (almacenados en los archivos .N=01 y .L01) y otro para los términos de más de 30 y hasta 60 caracteres(almacenados en los archivos .N02 y .L02). El archivo .CNT  contiene campos de control para ambos árboles B*). En cada archivo del árbol B* el archivo .N0x contiene los nodos del árbol y el archivo .L0x contiene las hojas. Los registros de las hojas apuntan al lugar donde se encuentran los apuntadores que contienen la información para localizar los registros (postings) en la base de datos. Este archivo se identifica con la extensión .IFP .

Revision as of 10:52, 21 December 2013

Los archivos de datos (mst y xrf) solo permiten la recuperación de registros en forma secuencial por número MFN. Como se requieren otras formas de acceso la información, por ejemplo, autores, países, materias, etc., es necesario contar con una estructura adicional que permita, dada una palabra clave o una fórmula de búsqueda, ubicar los registros que contienen los términos solicitados. Esta estructura es lo que bajo Cds/isis se denomina Listas Invertidas.

El archivo invertido de las estructuras CDS/Isis está formado en realidad por 6 archivos físicos, cinco de los cuales contienen los términos de búsqueda del diccionario (organizados como un árbol B*) y el sexto contiene la lista de apuntadores asociadas a cada término.

A fin de optimizar el almacenamiento en disco, se mantienen dos árboles B* por separado: uno para los términos de hasta 30 caracteres (almacenados en los archivos .N=01 y .L01) y otro para los términos de más de 30 y hasta 60 caracteres(almacenados en los archivos .N02 y .L02). El archivo .CNT contiene campos de control para ambos árboles B*). En cada archivo del árbol B* el archivo .N0x contiene los nodos del árbol y el archivo .L0x contiene las hojas. Los registros de las hojas apuntan al lugar donde se encuentran los apuntadores que contienen la información para localizar los registros (postings) en la base de datos. Este archivo se identifica con la extensión .IFP .


La relación física entre estos archivos puede representarse de la siguiente manera:

centro