Difference between revisions of "Búsqueda libre sobre archivos TXT"

From ABCD Wiki
Jump to: navigation, search
Line 4: Line 4:
  
 
Ejemplo de salida: http://abcdwiki.net/ABCD/pdf2text/search_pdf_ifp.php?Expresion=democracia+participativa&separacion=1&ifp=ifp
 
Ejemplo de salida: http://abcdwiki.net/ABCD/pdf2text/search_pdf_ifp.php?Expresion=democracia+participativa&separacion=1&ifp=ifp
 +
 +
En este ejemplo se solicitó ubicar los términos '''democracia participativa''' en una estructura consistente de 8 carpetas con un total de 3386 archivos TXT. La página contiene los siguientes elementos:
 +
{| class="wikitable"
 +
|-
 +
| Buscar || Recuadro donde se incluyen los terminos que se desea localizar
 +
|-
 +
| Explorar términos || Provee acceso al diccionario de términos de una base de datos asociada a los documentos
 +
|-
 +
| Explorar palabras || Presenta la lista de palabras que han sido extraídas de los archivos txt
 +
|-
 +
| Separación mínima || Indica cuantas palabras de separación (proximidad) debe existir entre los términos solicitados
 +
|-
 +
| Leídos || Número total de archivos TXT existente
 +
|-
 +
| Localizados || Número de archivos que tienen los términos solicitados con la proximidad requerida
 +
|-
 +
| Tiempo de ejecución || Tiempo invertido en la búsqueda
 +
|-
 +
| Frecuencia de los términos|| Para cada término solicitado indica el número de veces que aparece el mismo en '''todos''' los archivos txt leídos. Esta frecuencia es utilizada posteriormente para evaluar la relevancia del documento (ver http://www.tfidf.com/)
 +
|-
 +
| Resultados por órden de rele || Ejemplo
 +
|-
 +
| Ejemplo || Ejemplo
 +
|-
 +
| Ejemplo || Ejemplo
 +
|-
 +
| Ejemplo || Ejemplo
 +
|-
 +
| Ejemplo || Ejemplo
 +
|-
 +
| Ejemplo || Ejemplo
 +
|}
  
  

Revision as of 22:18, 16 April 2019

Tiene como finalidad realizar una búsqueda libre sobre archivos TXT generados a partir de conversión de documentos PDF o Word a un formato plano. Igualmente pueden utilizarse archivos de audio procesados por un traductor de Mp3 a Txt. En el caso de documentos PDF o Word se provee un convertidor para generar los equivalente TXT de estos documentos.

Los archivos TXT se mantiene en una o varias carpetas y desde ahí son procesados para aplicar una búsqueda por proximidad de los términos solicitados. Los resultados se presentan ordenados por relevancia, aplicando las fórmulas y criterios establecidos en http://www.tfidf.com/

Ejemplo de salida: http://abcdwiki.net/ABCD/pdf2text/search_pdf_ifp.php?Expresion=democracia+participativa&separacion=1&ifp=ifp

En este ejemplo se solicitó ubicar los términos democracia participativa en una estructura consistente de 8 carpetas con un total de 3386 archivos TXT. La página contiene los siguientes elementos:

Buscar Recuadro donde se incluyen los terminos que se desea localizar
Explorar términos Provee acceso al diccionario de términos de una base de datos asociada a los documentos
Explorar palabras Presenta la lista de palabras que han sido extraídas de los archivos txt
Separación mínima Indica cuantas palabras de separación (proximidad) debe existir entre los términos solicitados
Leídos Número total de archivos TXT existente
Localizados Número de archivos que tienen los términos solicitados con la proximidad requerida
Tiempo de ejecución Tiempo invertido en la búsqueda
Frecuencia de los términos Para cada término solicitado indica el número de veces que aparece el mismo en todos los archivos txt leídos. Esta frecuencia es utilizada posteriormente para evaluar la relevancia del documento (ver http://www.tfidf.com/)
Resultados por órden de rele Ejemplo
Ejemplo Ejemplo
Ejemplo Ejemplo
Ejemplo Ejemplo
Ejemplo Ejemplo
Ejemplo Ejemplo


Extraer el texto de los documentos PDF o Word

El documento PDF es procesado y se crea un archivo .txt contentivo de la versión ANSI de dicho documento. Aún cuando se podría realizar la extracción de texto en el mismo proceso de búsqueda, este paso previo se justifica por cuanto incrementa la velocidad de respuesta al momento de la búsqueda libre. El resultado final será una carpeta con los archivos .txt obtenidos.


Búsqueda Libre

Este proceso trabaja sobre los archivos .txt obtenidos en el paso anterior. Para su ejecución solicita hasta 2 palabras a ser localizadas y la separación que debe existir entre ellas, la cual se expresa en el número máximo de espacios que deben figurar entre las palabras requeridas. Por ejemplo, si la separación es 1 las palabras deben estar contiguas (separadas por un espacio) ... y así sucesivamente.

Dado que la localización es por proximidad no importa el orden como figuren las palabras en la frase. Además la búsqueda es transparente al uso de acentos, mayúsculas o minúsculas.

El resultado de la búsqueda libre presenta los párrafos donde se localizaron los términos solicitados, indicando el número de página dentro del documento PDF donde se ubica el párrafo. Se provee además un enlace al PDF localizado.

Al final de la página se provee un resumen donde figura: el total de documentos procesados, total de documentos localizados, tiempo de ejecución

    Leidos: 3812 documentos
    Localizados: 278
    Tiempo de ejecución: 20.839427947998 segundos


Estructura de la demostración

Para esta demostración se creó una carpeta con 9 subcarpetas contentivas de

      Carpeta    No. de archivos
        1            376
        2            472
        3             49
        4            528
        5            508
        6            378
        7            498
        8            528
        9            475

Lo que da un total de 3.412 documentos.


Si los documentos están divididos en carpetas se puede localizar incluir en la busqueda una o más carpetas. También podría hacerse la búsqueda sobre documentos resultantes de una consulta sobre un base de datos.

Ejemplos

Localizar todos documentos con los terminos democracia participativa adyacentes

  http://abcdwiki.net/ABCD/pdf2text/search_pdf.php?Expresion_1=democracia&Expresion_2=participativa&dir=1,2,3,4,5,6,7,8,9&separacion=1

Localizar documentos donde figuran los términos municipal e información con una semaración máxima de 5 palabras

  http://abcdwiki.net/ABCD/pdf2text/search_pdf.php?Expresion_1=municipal&Expresion_2=informacion&dir=1,2,3,4,5,6,7,8,9&separacion=5

Localizar los documentos donde se hace referencia al autor Narbondo limitando la búsqueda a las carpetas 4, 5 y 6

  http://abcdwiki.net/ABCD/pdf2text/search_pdf.php?Expresion_1=Narbondo&dir=4,5,6&separacion=1

Localizar los documentos donde figure la empresa "colombia telecomunicaciones" en las carpetas 2,3 y 7

  http://abcdwiki.net/ABCD/pdf2text/search_pdf.php?Expresion_1=colombia&Expresion_2=telecomunicaciones&dir=3,6,7&separacion=1

Por hacer

  1. Aumentar el número de términos que puedan suministrarse para la búsqueda libre. En este momento el máximo es dos
  2. Ligar la búsqueda a documentos obtenidos como resultado de una consulta
  3. Ampliar la tabla de diacríticos para otros idiomas (internacionalización)

... y otras opciones que puedan ser agregadas por sugerencia de los usuarios.