Apache Lucene

Apache Lucene es una biblioteca de software de recuperación de información disponible gratuitamente que trabaja con campos de texto dentro de archivos de documentos. Esta empresa en evolución también se llama Proyecto Apache Lucene. Apache es un servidor que se distribuye bajo una licencia de código abierto.

La interfaz del programa de aplicación (API) de Lucene permanece igual independientemente del formato del archivo que se indexará. Siempre que la información de texto se pueda recuperar y extraer, Lucene puede indexar prácticamente cualquier tipo de documento que contenga texto. Lucene se ha vuelto popular para su uso en motores de búsqueda de Internet, así como para operaciones de búsqueda en un solo sitio.

El proyecto Apache Lucene consta de cuatro componentes principales:

  • Lucene Core: indexación, búsqueda, revisión ortográfica, resaltado de golpes y tokenización.
  • PyLucene: puerto de Python para Lucene Core.
  • Solr: Lenguaje de marcado extensible (XML), Protocolo de transferencia de hipertexto (HTTP) y API para la notación de objetos Javascript (JSON), Python y Ruby, así como resaltado de aciertos, búsqueda por facetas, almacenamiento en caché, replicación y una interfaz para el sitio web administradores.
  • Proyecto de relevancia abierta: distribución gratuita de materiales para pruebas de desempeño y evaluación de relevancia.