Difference between revisions of "La tabla de extracción de campos (FST)"

From ABCD Wiki
Jump to: navigation, search
(Página creada con «La tabla de extracción de campos es el archivo utilizado en las estructuras CDS/Isis para actualización y mantenimiento de las índices de búsqueda (listas invertidas) a...»)
 
Line 30: Line 30:
 
           Número de Ocurrencia
 
           Número de Ocurrencia
 
           Número de Secuencia
 
           Número de Secuencia
 +
 +
El valor suministrado en la columna 1 de la FST genera el componente '''ID''' del archivo invertido, el cual  le asigna una identificación a cada una de las claves generadas por el  formato de extracción . Esta identificación es muy importante para ABCD cuando se usan listas de autoridades y generalmente deberá coincidir con el tag del campo.
 +
 +
Hasta el momento existen 9 técnicas de indización:
 +
{| class="wikitable"
 +
 +
|-
 +
| 0 || Pasa a la lista invertida cada '''línea''' generada por el formato de extracción
 +
|-
 +
| 1 || Pasa a la lista invertida cada '''sub-campo''' generado por el formato de extracción
 +
|-
 +
| 2 || Pasa a la lista invertida los elementos encerrados entre '''<...>'''
 +
|-
 +
| 3 || Pasa a la lista invertida los elementos encerrados entre '''/.../'''
 +
|-
 +
| 4 || Pasa a la lista invertida cada '''palabra''' generada por el formato de extracción
 +
|-
 +
| 5 || Igual a la técnica '''1''', agregando un '''prefijo''' a cada clave generada
 +
|-
 +
| 6 || Igual a la técnica '''2''', agregando un '''prefijo''' a cada clave generada
 +
|-
 +
| 7 || Igual a la técnica '''3''', agregando un '''prefijo''' a cada clave generada
 +
|-
 +
| 8 || Igual a la técnica '''4''', agregando un '''prefijo''' a cada clave generada
 +
|}
 +
 +
Las técnicas 2 y 3 tienen efectos similares en la  generación de la clave; la diferencia proviene del tipo de delimitador  utilizado para identificar los términos a extraer: si se usa el delimitador '''<...>''' para identificar los términos claves,  posteriormente, al emitir reportes impresos o salidas por pantalla, el  mismo puede eliminarse o sustituirse por signos de puntuación aplicando  el comando de modo '''MHx''' o '''MDx'''. El delimitador '''/.../''' no puede sustituirse por lo que siempre estará presente en la salidas impresas o por pantalla.
 +
 +
Cuando se aplica una fst sobre un registro para obtener una clave, el órden de la operación es el siguiente:
 +
 +
#Se utiliza el formato de extracción capturar los datos del registro
 +
#A la información obtenida se le aplica la técnica de indización correspondiente
 +
#A cada clave individual que resulte de este proceso se le asigna el '''Id''' especificado y se almacena en la lista invertida incluyendo el MFN del registro, el número de ocurrencia de la cual se extrajo la clave, y si la indización es por palabra (técnica 4 u 8), la posición relativa de la palabra respecto a la línea generadas por el formato de extracción.
 +
 +
Ejemplo: Supongamos que de el siguiente registro (en formato MARC):
 +
<pre>
 +
<35>  $9(DLC)  90049743l</35>
 +
<10>  ^a  90049743</10>
 +
<20>  ^a0387974490 (alk. paper)</20>
 +
<40>  ^aDLC^cDLC^dDLC</40>
 +
<41>0 ^aeng^bfregerhebjapsparus</41>
 +
<50>00^aGC89^b.E54 1991</50>
 +
<82>00^a551.4/58$220</82>
 +
<100>1 ^aEmery, K. O.^q(Kenneth Orris),^d1914-</100>
 +
<245>10^aSea levels and tide gauges /^cK.O Emery, David G. Aubrey.</245>
 +
<260>  ^aNew York :^bSpringer-Verlag,^cc1991.</260>
 +
<300>  ^axiv, 237 p. :^bill., maps :^c29 cm.</300>
 +
<500>  ^aIn English, with summaries in French,          German, Hebrew, Japanese, Spanish, and Russian.</500
 +
<504>  ^aIncludes bibliographical references (p. 207-226) and indexes.</504>
 +
<650> 0^aSea level.</650>
 +
<650> 0^aSubsidences (Earth movements)</650>
 +
<650> 0^aTide-gages.</650>
 +
<650> 0^aDatabase management^xCongresses.</650>
 +
<650> 0^aArtificial intelligence^xCongresses.</650>
 +
<700>1 ^aAubrey, David G.</700>
 +
<5>20000113 35151</5>
 +
<935>LA<935>
 +
</pre>
 +
queremos obtener las siguientes claves:
 +
{| class="wikitable"
 +
|-
 +
| Título (245) || para ser recuperado por cada una de las palabras
 +
|-
 +
| Autores (100 y 700) || para ser recuperados en forma completa (apellido + nombre) e independientemente por apellido o nombre
 +
|-
 +
| Materias (650) || que puedan recuperarse por frase completa o por cualquiera de laa palabras que las forman
 +
|-
 +
| Idiomas (41) || todos los idiomas (nota: en el  subcampo b del campo 41 los idiomas se incluyen en una cadena donde  cada 3 caracteres representan el código de un idioma diferente
 +
|-
 +
| Editorial (260) || tal como aparece en el documento
 +
|-
 +
| Fecha de edición(260) || tal como aparece en el documento
 +
|-
 +
| Clasificacion LC (50) || de forma tal que  permita hacer una búsqueda general por el primer nivel  de la  clasificación y también por la clasificación completa
 +
|-
 +
| Fecha de ingreso a la base de datos (5) || para recuperar todos los títulos ingresados en un ańo, en un ańo/mes y en un ańo/mes/día
 +
|}

Revision as of 20:32, 25 November 2013

La tabla de extracción de campos es el archivo utilizado en las estructuras CDS/Isis para actualización y mantenimiento de las índices de búsqueda (listas invertidas) así como en los procesos relacionados con el intercambio de información o la generación de claves para ordenar alfabéticamente los reportes de salida. Al construir la tabla de extracción de campos el diseńador de la base de datos ha de tener en mente los tipos de búsqueda que quiere habilitar para los usuarios de la información e intentar que las consultas recuperen información, siempre que sea posible. CDS/Isis proporciona un gran número de facilidades para garantizar el éxito de los procesos de recuperación de información, como son:

  • 8 técnicas de indización diferentes, de tal forma que un mismo campo puede ser almacenado en los índices de diferentes manera
  • La extracción de claves se formula a través del lenguaje de formatos, lo que permite analizar y realizar transformaciones sobre los datos antes de enviarlos a los índices
  • Transparencia en el uso de mayúsculas, minúsculas o caracteres acentuados en los términos de búsqueda
  • Identificación de las claves de búsqueda, lo cual facilita determinar el orígen (mfn, campo, ocurrencia y posición relativa dentro del campo) de cada uno de los términos contenidos en el diccionario

La tabla de extracción de campos es un archivo del tipo TXT el cual consta de tres columnas donde se identifican los siguientes elementos:

ID Identificación de la clave

Identifica la etiqueta (tag) del campo que se utilizará para identificar el término.

TI Técnica de indización

Especifica la técnica de indización a aplicar sobre las líneas obtenidas luego de la aplicación del formato de extracción sobre cada registro de la base de datos

Formato de extracción

Indica el formato de extracción a aplicar sobre el registro para obtener la clave


ID Identificación de la clave

Las claves del archivo de índices (listas invertidas) de las estructuras CDS/Isis constan de cinco elementos:

         Término de búsqueda (clave)
         ID
         Mfn
         Número de Ocurrencia
         Número de Secuencia

El valor suministrado en la columna 1 de la FST genera el componente ID del archivo invertido, el cual le asigna una identificación a cada una de las claves generadas por el formato de extracción . Esta identificación es muy importante para ABCD cuando se usan listas de autoridades y generalmente deberá coincidir con el tag del campo.

Hasta el momento existen 9 técnicas de indización:

0 Pasa a la lista invertida cada línea generada por el formato de extracción
1 Pasa a la lista invertida cada sub-campo generado por el formato de extracción
2 Pasa a la lista invertida los elementos encerrados entre <...>
3 Pasa a la lista invertida los elementos encerrados entre /.../
4 Pasa a la lista invertida cada palabra generada por el formato de extracción
5 Igual a la técnica 1, agregando un prefijo a cada clave generada
6 Igual a la técnica 2, agregando un prefijo a cada clave generada
7 Igual a la técnica 3, agregando un prefijo a cada clave generada
8 Igual a la técnica 4, agregando un prefijo a cada clave generada

Las técnicas 2 y 3 tienen efectos similares en la generación de la clave; la diferencia proviene del tipo de delimitador utilizado para identificar los términos a extraer: si se usa el delimitador <...> para identificar los términos claves, posteriormente, al emitir reportes impresos o salidas por pantalla, el mismo puede eliminarse o sustituirse por signos de puntuación aplicando el comando de modo MHx o MDx. El delimitador /.../ no puede sustituirse por lo que siempre estará presente en la salidas impresas o por pantalla.

Cuando se aplica una fst sobre un registro para obtener una clave, el órden de la operación es el siguiente:

  1. Se utiliza el formato de extracción capturar los datos del registro
  2. A la información obtenida se le aplica la técnica de indización correspondiente
  3. A cada clave individual que resulte de este proceso se le asigna el Id especificado y se almacena en la lista invertida incluyendo el MFN del registro, el número de ocurrencia de la cual se extrajo la clave, y si la indización es por palabra (técnica 4 u 8), la posición relativa de la palabra respecto a la línea generadas por el formato de extracción.

Ejemplo: Supongamos que de el siguiente registro (en formato MARC):

<35>  $9(DLC)   90049743l</35>
<10>  ^a   90049743</10>
<20>  ^a0387974490 (alk. paper)</20>
<40>  ^aDLC^cDLC^dDLC</40>
<41>0 ^aeng^bfregerhebjapsparus</41>
<50>00^aGC89^b.E54 1991</50>
<82>00^a551.4/58$220</82>
<100>1 ^aEmery, K. O.^q(Kenneth Orris),^d1914-</100>
<245>10^aSea levels and tide gauges /^cK.O Emery, David G. Aubrey.</245>
<260>  ^aNew York :^bSpringer-Verlag,^cc1991.</260>
<300>  ^axiv, 237 p. :^bill., maps :^c29 cm.</300>
<500>  ^aIn English, with summaries in French,          German, Hebrew, Japanese, Spanish, and Russian.</500
<504>  ^aIncludes bibliographical references (p. 207-226) and indexes.</504>
<650> 0^aSea level.</650>
<650> 0^aSubsidences (Earth movements)</650>
<650> 0^aTide-gages.</650>
<650> 0^aDatabase management^xCongresses.</650>
<650> 0^aArtificial intelligence^xCongresses.</650>
<700>1 ^aAubrey, David G.</700>
<5>20000113 35151</5>
<935>LA<935>

queremos obtener las siguientes claves:

Título (245) para ser recuperado por cada una de las palabras
Autores (100 y 700) para ser recuperados en forma completa (apellido + nombre) e independientemente por apellido o nombre
Materias (650) que puedan recuperarse por frase completa o por cualquiera de laa palabras que las forman
Idiomas (41) todos los idiomas (nota: en el subcampo b del campo 41 los idiomas se incluyen en una cadena donde cada 3 caracteres representan el código de un idioma diferente
Editorial (260) tal como aparece en el documento
Fecha de edición(260) tal como aparece en el documento
Clasificacion LC (50) de forma tal que permita hacer una búsqueda general por el primer nivel de la clasificación y también por la clasificación completa
Fecha de ingreso a la base de datos (5) para recuperar todos los títulos ingresados en un ańo, en un ańo/mes y en un ańo/mes/día