janvier
2007
Pour travail je suis entrain d’éplucher tout les moteurs d’indéxation pour réseaux d’entreprise.
Pour l’instant à part le Google entreprise (à 2000 € pour la verison mini) il n’y a pas grand chose …
J’aurais bien utilisé Beagle mais il est complètement dépassé par la problématique de notre entreprise.
Je me suis donc dit : « Pourquoi redevelopper quelque chose de similaire en se basant sur beagle (merci à l’Open Source )? »
Dans cette optique j’ai identifié les points suivants :
- Doit indexer les noms et les contenu des fichiers
- Doit être client/serveur
- Doit respecter les droits des utilisateurs sur les fichiers
- Doit fonctionner avec peu de maintenance
Comme vous le voyez les questions de performance ne sont pas ma priorité. En effet, l’indexation pourra tourner la nuit en mettant autant de temps quelle le souhaite
Le rapport avec .NET dans tout ça ?
Tout simplement que la gestion des évènements de création/suppression et autre sont directement géré par une classe magique du framework : le FileSystemWatcher.
Webman a écrit un article très sympas sur ce composant. il est disponible ici
C’est un projet un peu fou, mais je pense qu’il sera riche en enseignement
5 Commentaires + Ajouter un commentaire
Archives
- juillet 2012
- mars 2012
- février 2012
- novembre 2011
- octobre 2011
- mars 2011
- novembre 2010
- octobre 2010
- septembre 2010
- août 2010
- avril 2010
- février 2010
- janvier 2010
- novembre 2009
- octobre 2009
- septembre 2009
- juin 2009
- mai 2009
- avril 2009
- mars 2009
- février 2009
- janvier 2009
- décembre 2008
- novembre 2008
- octobre 2008
- septembre 2008
- août 2008
- juin 2008
- mai 2008
- avril 2008
- février 2008
- mai 2007
- avril 2007
- mars 2007
- février 2007
- janvier 2007
ça a pas l’air mal du tout ça
J’ai vu et deja utilisé la version de lucene en dotnet.
http://www.dotlucene.net/
Elle permet d’indexer des fichiers .doc
Si cela peut debloquer la situation.
je connais pas super bien lucene, mais il me semble qu’il est tres simple de fournir a lucene une version full text des document office (via poi ou une autre api), tu dois pouvoir trouver tres facilement des implementations existantes.
pour les droits, j’aurais tendance a penser que ca se gere apres, en fonction des documents
Par exemple, pour voir Lucene tourner dans la Ged alfresco, ca gere tres bien les docs office (d’ailleurs alfresco est open, faudrait chercher ce qu’ils utilisent) et les droits
oui mais d’après ce que j’en ai lu :
– Il ne fait pas de recherche dans les documents office (chez nous c’est le standard, 98 % des documents sont « office » )
– Il ne gere pas les droits d’accès des utilisateurs
par contre si tu as un bon site de ressources sur Lucene en français, je prend histoire d’approfondir le sujet
franchement, la solution standard du monde open source sur l’indexation, c’est lucene.