Après avoir vu différents algorithmes de similarité dans des billets précédents, je vous propose un petit comparatif à travers un exemple qui consiste à trouver le doublon de restaurants par leur nom, adresse, téléphone et type de cusine.
Lire la suite
Archives du mot-clé Chaîne de caractères
VBA : Recherche d’une sous-chaîne particulière par la fin
Après avoir vu l’extraction d’un token particulier depuis le début de la chaîne de caractère, je vous présente sa version depuis la fin de la chaîne.
Lire la suite
VBA : Distance de Jaro-Winkler
Cet algorithme mesure la similarité entre deux chaînes de caractères pour la recherche de doublons par exemple. Tout comme les algorithmes de Damerau-Levenshtein et les indices de similarité Cosinus, Dice, Jaccard…, la distance est normalisée entre 0 et 1. Plus la similarité est forte plus la distance tend vers 1.
Lire la suite
Indices de similarité entre deux chaînes de caractères
Après l’algorithme de Damerau-Levenshtein qui mesure la distance minimale d’édition entre deux textes, je présente un algorithme plus simple et donc plus rapide qui calcule différents indices de similarité (Cosinus, Dice, Jaccard, Kulczynski,…) à partir de n-grammes (n-grams/q-grams en anglais) ou sous-séquences continues de caractères.
Lire la suite
Transformer le nom d’un mois de l’année ou son abréviation en son numéro
Je vous propose une petite fonction VBA pour convertir le nom d’un mois de l’année en son numéro. Les noms/abréviations sont composés au minimum de 2 lettres, écrits en français ou en anglais.
Lire la suite
Transposer des lignes en une colonne
On a parfois besoin de concaténer dans une colonne le contenu de plusieurs lignes d’une table ou d’une requête.
Lire la suite
Similarité entre deux chaînes de caractères
Pour tenter de réduire l’imperfection des ITCC, IPCC, ITPCC voire ITPCCC et plus généralement ICC(*), de nombreux algorithmes sont proposés (Soundex, Jaro-Winkler, …) et l’algorithme de Damerau-Levenshtein que j’ai implémenté ici en VBA.
Voir aussi le billet sur les indices de similarité et le billet sur la distance de Jaro-Winkler.
Lire la suite
Encoder un texte en UTF-8
Si vous êtes utilisateur de web services ou si vous avez besoin d’encoder des chaînes de caractères en UTF-8,
Cette fonction en VBA va vous aider…
Lire la suite
Fonctions Min / Max d’une série de valeurs
Deux petites fonctions qui permettent d’extraire la valeur minimale ou maximale d’une série de valeurs dans une requête SQL ou dans un code VBA.
Lire la suite
Substituer des sous-chaînes
Je vous présente une fonction polyvalente écrite en VBA qui permet de remplacer une ou plusieurs sous-chaînes en tenant compte ou non de la casse des caractères.
Lire la suite