|
La distance de Levenshtein mesure la similarité entre deux chaînes de caractères. Son nom provient de Vladimir Levenshtein qui l'a définie en 1965. Cette distance est d'autant plus grande que le nombre de différences entre les deux chaînes est grand. La distance de Levenshtein peut être considérée comme une généralisation de la distance de Hamming. On peut montrer en particulier que la distance de Hamming est un majorant de la distance de Levenshtein.
DéfinitionOn appelle distance de Levenshtein entre deux mots M et P le coût minimal pour aller de M à P en effectuant les opérations élémentaires suivantes:
On associe ainsi à chacune de ces opérations un coût. Par exemple, dans les exemples suivants, le coût est toujours égal à 1, sauf dans le cas d'une substitution de caractères identiques. ExemplesSi M = « examen » et P = « examen », alors LD (M, P) = 0, parce qu'aucune opération n'a été réalisée. Si M = « examen » et P = « examan », alors LD (M, P) = 1, parce qu’il y a eu un remplacement (changement du e en a). Algorithme de LevenshteinL'algorithme ci-dessous permet de calculer la distance de Levenshtein entre deux chaines de caractères courtes. Pour des chaînes de caractères plus longues (plusieurs mots) il faut utiliser les algorithmes de Jaccard ou TF/IDF par exemple. L'algorithme de Levenshtein est un algorithme de programmation dynamique (solution de type du bas en haut), qui utilise une matrice de dimension (n + 1) × (m + 1) où n et m sont les dimensions des deux chaînes de caractères. Dans le pseudo-code suivant, la chaîne chaine1 est de longueur longueurChaine1 et chaine2, de longueur longueurChaine2. Cet algorithme renvoie un entier positif ou nul. Il renvoie 0 si les chaînes 1 et 2 sont égales. Si les chaînes 1 et 2 sont très différentes, la fonction renverra au maximum la plus grande longueur des deux chaînes.
entier DistanceDeLevenshtein(caractere chaine1[1..longueurChaine1], caractere chaine2[1..longueurChaine2])
// d est un tableau de longueurChaine1+1 rangées et longueurChaine2+1 colonnes
declarer entier d[0..longueurChaine1, 0..longueurChaine2]
// i et j itèrent sur chaine1 et chaine2
declarer entier i, j, coût
pour i de 0 à longueurChaine1
d[i, 0] := i
pour j de 0 à longueurChaine2
d[0, j] := j
pour i de 1 à longueurChaine1
pour j de 1 à longueurChaine2
si chaine1[i-1] = chaine2[j-1] alors coût := 0
sinon coût := 1
d[i, j] := minimum(
d[i-1, j ] + 1, // effacement
d[i , j-1] + 1, // insertion
d[i-1, j-1] + coût // substitution
)
retourner d[longueurChaine1, longueurChaine2]
L'invariant est qu'on peut transformer le segment initial Améliorations possiblesL'algorithme présenté a une complexité temporelle et spatiale de D'autre part, il est aussi possible d'expliciter la suite d'opérations réellement effectuée par l'algorithme en utilisant une deuxième matrice où l'on stocke pour chaque opération, l'opération parente. Une fois le calcul effectué, on peut reconstruire la chaîne en suivant cette matrice depuis sa fin. Ce processus permet par exemple d'apparier les caractères de a avec ceux de b. ImplémentationsPlusieurs implémentations sont disponibles : Levenshtein distance. Exemple de déroulement de l'algorithmePour comprendre le fonctionnement de cet algorithme, prenons un exemple: Soit s= « NICHE » Soit t= « CHIENS » IntuitivementIntuitivement, on voit bien que l'on peut transformer la chaîne s en t en 5 étapes:
La distance de Levenshtein d entre "NICHE" et "CHIENS" est donc de 5 (l'algorithme de la distance de Levenshtein ne s'occupe pas de déplacement, il ne sait détecter que la suppression ou l'insertion d'une lettre, ainsi que le remplacement d'une lettre par une autre). FonctionnementSoit n la longueur de la chaîne s (ici n=5) Si n=0 alors retourner d=m et quitter Construire une matrice M de n+1 lignes et m+1 colonnes.
Soit Cout(i, j)=0 si A(i)=B(j) et Cout(i, j)=1 si A(i)!=B(j)
On remplit ensuite la matrice M en utilisant la règle suivante M[i, j] est égale au minimum de:
Dans notre cas, le remplissage de la première ligne donne alors:
Nous réitérons cette opération jusqu'à remplir la matrice :
La distance de Levenshtein entre les mots s et t se retrouve en M[n, m]. Ici, on retrouve bien les 5 opérations trouvées de manière intuitive, la dernière matrice fournit aussi explicitement les opérations nécessaires pour passer d'une chaîne de caractères à l'autre. GénéralisationEn remplaçant chaîne de caractères par séquence de symboles, les symboles étant comparables par un opérateur d'égalité, on peut définir une distance d'édition fonctionnant sur d'autres types que des chaînes de caractères. Voir aussi |
This article is from Wikipedia. All text is available under the terms of the GNU Free Documentation License.
Mercedes Car
This site monitored by SitePinger.net