La SNCF migre vers Drupal

La SNCF va migrer son site voyages-sncf.com vers le célèbre gestionnaire de contenu open source Drupal.

A lire sur Solutions Logiciels

Obtenir une compilation nocturne de Lucene 4.0 et Solr 4.0

Depuis le début de l’année les sources de Lucene et Solr ont fusionnées. La prochaine version commune aura pour numéro 4.0. Pour ceux qui veulent déjà tester la version en cours de développement, il faut en récupérer les sources et les compiler. En effet, les liens de téléchargement des compilations nocturnes ne fonctionnent pas. En prérequis, il faut disposer de svn client et de ant.

Lire la suite …

Crawl Anywhere : un crawler Web pour Solr

Dans le cadre du remplacement de Fast ESP par Solr pour le moteur Hurisearch, un crawler Web était nécessaire. Le but d’un crawler web est à partir d’une adresse Web de découvrir et récupérer toutes les pages d’un site. Un tour d’horizon de ce qui existe en la matière à fait ressortir une liste réduite de candidats : Nutch, Apache Droids et Heritrix.

  • Nutch (bien que faisant partie de la famille Lucene) ne semble de pas être un projet très actif et son intégration à Solr est peu aisée malgré quelques efforts récents.
  • Apache Droids semblait prometteur, mais lui non plus n’est plus actif depuis plus d’un an.
  • Heritrix est de loin de plus poussé de ces 3 crawlers et est un projet actif.

Heritrix semblait être le bon choix, mais entre autres lacunes, il ne possède pas d’interface Web d’administration et de monitoring « user friendly ». Ce point étant crucial dans le cadre du projet Hurisearch, nous avons décidé de développer notre propre crawler Web que nous avons baptisé : « Crawl Anywhere« . Ce nom peut paraitre prétentieux, mais pouvoir crawler tous types de sources est un réel objectif. De plus, trouver un nom disponible et encore plus un nom de domaine n’est pas chose aisé.

Lire la suite …

Indexation multi-lingues avec Lucene et Solr

Un des challenges lors du passage de Fast ESP à Solr pour le moteur Hurisearch a été de pouvoir indexer et rechercher des documents dans un très grand nombre de langues. Plus de 60 langues sont répertoriées avec par exemple par ordre décroissant d’importance : Anglais, Espagnol, Français, Allemand, Flamand, Russe, Arabe, Slovène, Hébreux, Persan (Farci), Coréen, Tchèque, Chinois, Norvégien, Japonais, Roumain, Catalan, Hongrois, Géorgien, …

Lucene et différentes contributions permettent de disposer d’analyzer et même de « stemmer » pour un grand nombre de ces langues. Avec Solr, le seul moyen pour associer le bon analyzer à chaque langue est d’avoir autant de champs dans le shema qu’il y a de langues possibles et d’associer à chaque champ le bon analyzer. Pour Hurisearch, cela aurait donc fait 60 champs pour le contenu des documents et 60 champs pour les titres. L’autre problème dans ce cas est également de ne pas pouvoir chercher lors d’une même requête dans la totalité des langues  simultanément. Autant dire que ces contraintes et limitations ne sont pas acceptables.

Lire la suite …

Upgrader Lucene dans Solr 1.4

Solr 1.4 utilise Lucene 2.9.0 et depuis sa sortie en novembre 2009, des mises à jours de Lucene sont disponibles. La dernière version de ce dernier est la 2.9.3. Afin de bénéficier de ces mises à jours dans Solr, il est possible de patcher le fichier solr.war.

Lire la suite …

Recherche open source: Lucene fait son show

Apache Lucene et Apache Solr, deux solutions open source d’indexation et de recherche des données, seront au cœur de l’Apache Lucene EuroCon 2010.

A lire ici

Les éditeurs du Saas ont tiré leur épingle du jeu en 2009

Avec son Software Insider Index, l’analyste Ray Wang démontre que l’activité des éditeurs d’applications d’entreprise en mode Saas a progressé l’an dernier. A lire ici

01 Net Pro

White Paper: The Case for Lucene/Solr: A Manager’s Guide to Real World Open Source Search Applications

A télécharger sur lucid imagination

This paper provides an overview of both the requirements and the opportunities for search applications. It then explores how real world organizations are successfully using Lucene/Solr search applications to meet those opportunities, presenting how the technology is used for specific business models and use cases across industries. In addition, it offers a baseline for setting search requirements that managers and architects can use to adopt Lucene/Solr, and adapt this open source search technology to the unique needs of their business.


Sematext met en oeuvre Lucene Solr

http://sematext.com/

Les principaux CMS open sources adoptent Solr

Qu’est ce que Ez Publish, Typo3, Django et Drupal ont en commun ? Et bien, ils possèdent tous un plugin pour Solr. Ces CMS (Content Management System ou Systèmes de gestion de contenu) disposent ainsi de toute la puissance de Solr pour leur fonctionnalité de recherche interne. Les avantages principaux étant :

  • Performance
  • Fonctionnalités avancées (stemming, facettes, mise en évidences des termes recherchés, …)
  • Recherche déportée sur un serveur dédié

Pour ez Publish, il s’agit du plugin ez Find.

Pour Drupal, il s’agit du module apachesolr.

Pour Django, c’est Haystack.

Pour Typo3, il s’agit de l’extention Apache Solr for Typo3.

Cette adoption de Solr par ces 3 CMS majeurs confirme la puissance de ce dernier.


Page 1 of 3123»