Detalle funcionalidades Solr vs Idol

Continuemos avanzando en el tan cambiante como apasionante mundo del Open Search.

La semana pasada publicábamos la 1ª versión de la matriz de funcionalidades Autonomy Idol vs Lucene Solr.

Hoy, avanzamos y completamos la matriz con detalle descriptivo de todas y cada una de las funcionalidades presentadas.

Sino la habéis leido, os recomendamos la entrevista a Alberto Rodriguez-Tenreiro dado que ayuda a comprender las similitudes en términos de inter-operatividad, escalabilidad, distribución, etc.

Las características de cada funcionalidad se exponen a continuación:

Búsqueda Básica (Basic Search)

  • Idol:Incluye todas aquellas acciones básicas o estándar de búsqueda Booleana.
  • Solr: Formulada también vía http incluye mismas funciones booleanas.

Búsqueda Avanzada (Advanced Search)

  • Idol: Su funcionamiento es el mismo que búsqueda básica, sin embargo permite la búsqueda anunciada por “conceptos”, Fuzzy y cálculo de pesos entre términos si bien ha sido sustituida a actuar por defecto sobre literales para reducir ruido en resultados.
  • Solr: Su funcionamiento es igual al de la búsqueda básica con la salvedad de que en este caso permite  la búsqueda de construcciones semánticas complejas.

Navegación Dirigida (Directed Navigation)

  • Idol: Introducida en el 2002, realiza las mismas funciones.
  • Solr: Es uno de los componentes básicos de Solr que nos ayuda a categorizar los resultados obtenidos al realizar una query.

Corrección Ortográfica (Spellchecking)

  • Idol:No permite actuar sobre diccionario sino sobre la singularidad de ocurrencias del término. Es decir, es posible configurar Idol para que ofrezca el siguiente término similar (por similitud cadena caracteres) si el término soliticado ocurre menos de ‘n’ veces, siendo ‘n’ un valor configurable.
  • Solr: El diccionario en el que se basa la corrección puede ser externo (listado de términos) o construirse a partir de un campo concreto de los indexados.

Resumenes (Summaries)

  • Idol: Resúmenes de tipo contextual (frase/s de ocurrencia de término), conceptual (frase/s calculada como más relevante) o básico (primera frase/s).
  • Solr: Consiste en una funcionalidad a la que podemos acceder gracias al Highlight. Este componente de Solr devuelve el texto remarcado entre las etiquetas <em></em> (u otras etiquetas en función de lo configurado en el solrconfig.xml), en su contexto original. El parámetro hl.fragsize permite configurar la longitud de este contexto, lo cual permite hacer resúmenes de contenido que se adapten a necesidades específicas.

Subrayado de Resúmenes (Highlighting)

  • Idol: Hightlight remarca los términos buscados. Idol precisa que los campos donde se vaya a aplicar el Hightlight sean especificados en el archivo de configuración.
  • Solr: El Highlighting remarca los términos buscados con etiquetas HTML en un campo que se especifica en la query no precisando establecerlo estáticamente en la configuración sino dinámicamente en la consulta.

Extracción de Frases – Conglomerados de resultados (Key Phrase Extraction – Results clustering)

  • Idol: Diferentes funcionalidades o etiquetas comerciales (AQG-Dynamic Thesaurus) se asocian al mismo concepto funcional de extracción de los mejores términos (TermGetBest) y frases asociados a una consulta. Es posible adaptar estos términos generados determinando el número de resultados de dónde surgen.
  • Solr:  Existen dos toolkits aplicables con el objetivo de expandir consultas o automatizar la generación de términos y frases relacionadas: KeyPhrase Extractor (KPE) permite extraer términos y frases clave de un set de resultados ya sea mediante la extracción de frases comunes (Collocations) o mediante la comparación y diferencia entre las frases encontradas en dos sets de documentos (SIPs o Statistically Improbable Phrases). El segundo toolkit (disponible en Solr desde el 15 de Agosto de este año) es Carrot2, permitiendo asociación de valores por nodo así como estructuras más complejas.

Documentos relacionados (Suggest Documents)

  • Idol: Una de las funcionalidades históricamente más potentes de Idol (Hyperlinking), automatiza la asociación/relación de contenidos que comparten elementos en el contenido comunes con demostrada calidad y relevancia. El API de Idol permite filtrar y definir de forma flexible mediante la accition=suggest la relación de contenidos.
  • Solr: Hay dos vías para obtener documentos relacionados. Por un lado, está el RequesyHandler por defecto (/select) que con los parámetros mlt=true y mlt.fl=LISTADECAMPOS permite obtener los documentos relacionados a cada documento del resulset. Por otro lado, el MoreLikeThis RequestHandler aporta una solución similar a la anterior con la salvedad de que este permite ver además los términos que Solr emplea para obtener los documentos relacionados.

Conglomerado de documentos (Document Clustering)

  • Idol: Idol clusters toman una fotografía de los contenidos indexados en un Idol y generan grupos diferentes según su similitud. Es posible comparar grupos de diferentes momentos en el tiempo y determinar nuevos conglomerados (breaking news) o simplemente determinar los conjuntos más activos (hot news).
  • Solr: El clustering de documentos está basado en la ingeniería de Carrot2 al igual que la evolución de conglomerados de resultados. Su configuración nos aporta dos algoritmos de cluster que son Lingo Clustering Algorithm y STC Clustering Algorithm. Ambos algoritmos permiten la formulación de comparaciones de conglomerados de diferentes periodos.

Seguridad a Nivel de Documentos (Document Level Access)

  • Idol: IAS (Intellectual Asset-protection System) explota el rico abanico de conectores de Autonomy y la posibilidad de extraer por defecto en gran parte de ellos los ACLs de cada documento. Así mismo y mediante varios tipos de Servidores de Grupos (Group Servers) es fácilmente configurable sobre directorios de grupos estándares la integración de la autenticación.
  • Solr: Independientemente del método de autenticación es necesario integrar un plug-in (SearchComponent) que indexe y gestione los ACLs  asociados a cada documento. El conector con la fuente securizada ha de tener permisos de Administrador para poder leer los ACLs de cada documento y asignarlos al índice de Solr. Complementariamente ha de integrarse la autenticación para que cada petición de información lleve asignados el grupo o grupos a los que un usuarios pertenece.

Búsqueda Geográfica (Spatial Search)

  • Idol: Introducida recientemente en Idol, permite determinar las propiedades geográficas de un contenido por latitud y longitud, realizando acciones de búsqueda por proximidad. Es necesario crear un tipo de campo geográfico para formular las acciones de búsqueda por este criterio.
  • Solr: Hay dos posibilidades para utilizar esta funcionalidad:
    • La primera de ellas consiste en realizar la búsqueda por rango de coordenadas (fq=lat:[-23.0 TO -79.5] AND lon:[56.3 TO 60.3]) para lo que son necesarios dos campos indexados: latitud y longitud.
    • La segunda es más simple, pero requiere añadir un plugin al núcleo de Solr. Para ello se emplea una versión limpia del proyecto (empleando subversión) y se parchea con el complemento para habilitar el SpatialFilter (https://issues.apache.org/jira/browse/SOLR-1568). Una vez aplicado el parche se podrá centrar la búsqueda en una coordenada concreta y encontrar documentos próximos a este según la distancia deseada. Obviamente, todos los documentos que se deseen encontrar por este método han de tener un campo indexado de tipo “solr.PointType“, en el que se almacenará la posición de ese documento (p.g: 45.17614,-93.87341).

En el siguiente post dentro de la comparativa software de búsqueda comercial y abierto, nos adentraremos en una cuestión de máxima importancia.

Costes comparados de proyecto de búsqueda software libre y comercial

No os lo perdáis!

Compártelo:
  • Print
  • del.icio.us
  • Twitter
  • Facebook
  • LinkedIn
  • Digg
  • Meneame
  • Tumblr
  • StumbleUpon
  • BarraPunto
  • Technorati
Artículo asignado a: Buscar, Lucene, Noticias, Solr. Etiquetado como: , , , , , , , , , , , , , , , , , , . Guarda el Enlace Permanente. Sigue la conversación mediante los RSS de este artículo. Deja un comentario o envía un retroenlace: Trackback URL.

Escribe un Comentario

Your email never will be published or shared. Fields marked with * are required

*
*

Puedes utilizar estas etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

*