Número de ocurrencias en campos repetibles

From ABCD Wiki
Jump to: navigation, search

Explicacion cortesía de Ernesto Spinak

La cantidad máxima de ocurrencias no está documentada, pero por experiencias, he visto que por causa de las limitaciones del directorio del registro (leader, directory, data) en la versión estándar 1660, alrededor de 100 repeticiones comienza a dar problemas, y la cantidad de entradas en el directorio es un número que varía en el entorno de 400 tags.


El problema se da en la indización, porque si sumas los tags propios del registro, más los que se crean en forma virtual en el proceso de generación de postings, si se supera ese máximo,se satura el buffer y no crea todos los postings

Eso se nota mejor cuando indizas por palabras; si indizas un registro con muchos campos y repeticiones, entonces no queda lugar para los postings de palabras porque se supera el máximo.


La versión FFI de CISIS tiene limites bastante más elevados pero en ningún momento he podido llegar entre tags+occs +postings a 1.000 elementos virtuales.


Por este motivo J-ISIS usa el Lucene/Solr para indizar las bases de datos

  Nota:  las FST demasiado largas no garantizan que el registro genere todos los postings que se desea, 
         máxime si se usa indización con técnica 8