Búsqueda libre sobre archivos TXT

From ABCD Wiki
Revision as of 11:40, 13 March 2019 by Guilda (talk | contribs) (Página creada con «Este proceso tiene como finalidad realizar una búsqueda libre sobre el texto de documentos en formato PDF. Consta de dos procesos: # Extraer el texto de los documentos PD...»)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to: navigation, search

Este proceso tiene como finalidad realizar una búsqueda libre sobre el texto de documentos en formato PDF. Consta de dos procesos:

  1. Extraer el texto de los documentos PDF
  2. Realizar una búsqueda libre sobre el texto extraído a fin de localizar los términos suministrados. Esta búsqueda se realiza utilizando el criterio de proximidad entre términos a fin de proveer contexto al resultado.

Extraer el texto de los documentos PDF

El documento PDF es procesado y se crea un archivo .txt contentivo de la versión ANSI de dicho documento. Aún cuando se podría realizar la extracción de texto en el mismo proceso de búsqueda, este paso previo se justifica por cuanto incrementa la velocidad de respuesta al momento de la búsqueda libre. El resultado final será una carpeta con los archivos .txt obtenidos.


Búsqueda Libre

Este proceso trabaja sobre los archivos .txt obtenidos en el paso anterior. Para su ejecución solicita hasta 2 palabras a ser localizadas y la separación que debe existir entre ellas, la cual se expresa en el número máximo de espacios que deben figurar entre las palabras requeridas. Por ejemplo, si la separación es 1 las palabras deben estar contiguas (separadas por un espacio) ... y así sucesivamente.

Dado que la localización es por proximidad no importa el orden como figuren las palabras en la frase.

El resultado de la búsqueda libre presenta los párrafos donde se localizaron los términos solicitados, indicando el número de página dentro del documento PDF donde se ubica el párrafo. Se provee además un enlace al PDF localizado.

Al final de la página se provee un resumen donde figura:

Total de documentos procesados Total de documentos localizados Tiempo de ejecución

    Leidos: 3812 documentos
    Localizados: 278
    Tiempo de ejecución: 20.839427947998 segundos