Un moteur de recherche doit permettre à l’utilisateur de retrouver des informations issues de sources multiples (sites web, intranet, systèmes de fichiers, bases de données, CMS, …), dans des formats variés (texte, PDF, …), tout en respectant la sécurité d’accès aux données.

Dans le cadre de projets simples et au moyen de solutions pérennes, nous implémentons votre moteur de recherche répondant à ces exigences en mode installé ou en mode SaaS hébergé.

Apache Lucene

logo_lucene

Lucene est un projet open source chapeauté par la Fondation Apache qui est connue pour son grand nombre de projets réputés et largement utilisés de part le monde tels que le serveur Web Apache et le serveur d’application Tomcat. Une liste complète des solutions open sources proposées par la Fondation Apache est disponible à cette adresse : http://www.apache.org/.

Lucene est une librairie Java qui fournit l’ensemble des outils nécessaires à la mise en œuvre d’une solution d’indexation et de recherche plein-texte complète et puissante. Open source, Lucene est donc facilement enrichissable et est supportée par une communauté importante et très active d’utilisateurs et de développeurs. Le site web du projet Lucene est http://lucene.apache.org/.

Apache Solr

logo_home_solr

Solr est un sous projet Lucene. Il s’agit d’une solution de recherche d’entreprise prête à l’emploi qui apporte à Lucene une interface d’administration, des outils de réplication et de cache ainsi que de nombreuses autres fonctionnalités (recherche par facette, mise en évidence des termes, clustérisassion, …). Solr s’intègre au moyen de Web services de type REST (HTTP / XML / JSON). Open source également, Solr tout comme Lucene est supporté par une communauté importante et très active d’utilisateurs et de développeurs. Le site web du projet Solr est http://lucene.apache.org/solr/.

Selon le “OpenSource Census”, Lucene fait parti des 15 projets open-sources les plus déployés dans le monde (https://www.osscensus.org/summary-report-public.php), avec des installations dans environ 4000 sociétés. Le nombre de téléchargements de Lucene/Solr a été multiplié par 10 dans les 3 dernières années avec un nombre moyen de 6.000 téléchargements par jour.

Crawl Anywhere

logo_smallCrawl Anywhere est le crawler web avec une interface d’administration simple qui manquait à Solr. Le crawler est complété par une pipeline de traitement des documents avant leur indexation dans Solr. Pour plus d’informations, rendez-vous sur le site dédié à Crawl Anywhere : http://www.crawl-anywhere.com