Difference between revisions of "Estructura de los archivos invertidos"

From ABCD Wiki
Jump to: navigation, search
(Página creada con «El archivo invertido de las estructuras CDS/Isis está formado en realidad por 6 archivos físicos, cinco de los cuales contienen los términos de búsqueda del dicciona...»)
 
Line 1: Line 1:
El archivo invertido de las estructuras CDS/Isis está  formado en realidad por 6 archivos físicos, cinco de los cuales  contienen los términos de búsqueda del diccionario (organizados como un árbol B*) y el sexto contiene la lista de apuntadores asociadas a cada término.  A  fin de optimizar el almacenamiento en disco, se mantienen dos árboles B* por separado: uno para los términos de hasta 30 caracteres (almacenados en los archivos .N=01 y .L01) y otro para los términos de más de 30 caracteres (almacenados en los archivos .N02 y .L02). El archivo .CNT  contiene campos de control para ambos árboles B*. En cada archivo del árbol B* el archivo .N0x contiene los nodos del árbol y el  archivo .L0x contiene las hojas. Los registros de las hojas apuntan  al  lugar donde se encuentran los apuntadores que contienen la información  para localizar los registros (postings) en la base de datos. Este  archivo se identifica con la extensión .IFP.
+
El archivo invertido de las estructuras CDS/Isis está  formado en realidad por 6 archivos físicos, cinco de los cuales  contienen los términos de búsqueda del diccionario ([http://msinfo.info/msi/cdsisis/basico/trees.html organizados como un árbol B*]) y el sexto contiene la lista de apuntadores asociadas a cada término.  A  fin de optimizar el almacenamiento en disco, se mantienen dos árboles B* por separado: uno para los términos de hasta 16 caracteres (almacenados en los archivos .N=01 y .L01) y otro para los términos de más de 16 y hasta 30 caracteres (almacenados en los archivos .N02 y .L02). El archivo .CNT  contiene campos de control para ambos árboles B*. En cada archivo del árbol B* el archivo .N0x contiene los nodos del árbol y el  archivo .L0x contiene las hojas. Los registros de las hojas apuntan  al  lugar donde se encuentran los apuntadores que contienen la información  para localizar los registros (postings) en la base de datos. Este  archivo se identifica con la extensión .IFP.
  
 
La relación entre estos archivos puede representarse de la siguiente manera:
 
La relación entre estos archivos puede representarse de la siguiente manera:
  
 
[[Archivo:ifp_estructura.jpg|link=|center]]
 
[[Archivo:ifp_estructura.jpg|link=|center]]
 +
 +
Use el enlace [http://msinfo.info/msi/cdsisis/basico/trees.html ejemplos de organización y actualización de listas invertidas] para obtener más información sobre este tópico.
 +
 +
El proceso de actualización de las listas invertidas se realiza a través de un archivo llamado [[Tabla de extracción de campos (FST)]] donde se coloca la forma como se va a extraer la información de la base de datos para construir los índices

Revision as of 22:40, 24 November 2013

El archivo invertido de las estructuras CDS/Isis está formado en realidad por 6 archivos físicos, cinco de los cuales contienen los términos de búsqueda del diccionario (organizados como un árbol B*) y el sexto contiene la lista de apuntadores asociadas a cada término. A fin de optimizar el almacenamiento en disco, se mantienen dos árboles B* por separado: uno para los términos de hasta 16 caracteres (almacenados en los archivos .N=01 y .L01) y otro para los términos de más de 16 y hasta 30 caracteres (almacenados en los archivos .N02 y .L02). El archivo .CNT contiene campos de control para ambos árboles B*. En cada archivo del árbol B* el archivo .N0x contiene los nodos del árbol y el archivo .L0x contiene las hojas. Los registros de las hojas apuntan al lugar donde se encuentran los apuntadores que contienen la información para localizar los registros (postings) en la base de datos. Este archivo se identifica con la extensión .IFP.

La relación entre estos archivos puede representarse de la siguiente manera:

link=|center

Use el enlace ejemplos de organización y actualización de listas invertidas para obtener más información sobre este tópico.

El proceso de actualización de las listas invertidas se realiza a través de un archivo llamado Tabla de extracción de campos (FST) donde se coloca la forma como se va a extraer la información de la base de datos para construir los índices