Edit Distance o Levenshtein Distance: un algoritmo di similarità tra stringhe

In questo posto vedremo l'algoritmo di Editi Distance [1] detto anche di Levenshtein Distance. La edit distance, o distanza di Levenshtein, tra due stringhe s1 e s2 il minimo numero di sostituzioni, cancellazioni o inserimenti che occorre effettuare per ottenere s1 da s2. Ad esempio, la distanza tra gtgcca e ggcga è 2 (bisogna inserire una t nella seconda stringa e sostituire la penultima g con c per ottenere la prima stringa).

In questo posto vedremo l’algoritmo di Editi Distance [1] detto anche di Levenshtein Distance. La edit distance, o distanza di Levenshtein, tra due stringhe s₁ e s₂ il minimo numero di sostituzioni, cancellazioni o inserimenti che occorre effettuare per ottenere s₁ da s₂. Ad esempio, la distanza tra gtgcca e ggcga è 2 (bisogna inserire una t nella seconda stringa e sostituire la penultima g con c per ottenere la prima stringa).

L’edit distance rappresenta il costo dell’allineamento ottimo di due stringhe, quando tale costo è misurato attribuendo a due simboli a e b, uno dei quali può essere un gap (cioè un “buco”), il valore seguente:

dove il simbolo − denota, appunto, un gap. Il costo complessivo dell’allineamento è dato dalla somma dei costi di ciascuna posizione. Ad esempio, un allineamento ottimo, di costo 2, delle due stringhe precedenti è

gtgcca

g-gcga

Un allineamento non ottimo potrebbe essere

gtgcc-a

gg-c-ga

di costo 4 (potete contare quattro differenze).

L’algoritmo per calcolare l’edit distance (e quindi un allineamento ottimo) tra due stringhe si basa sull’osservazione seguente. Siano s₁ = a₁ ···a_m e s₂ =b₁ ···b_n due stringhe. Denotiamo con e(i , j ) l’edit distance tra i due prefissi p₁ = a₁ ···a_i e p₂ = b₁ ···b_j di s₁ e s₂ rispettivamente. Se e(i −1, j −1), e(i −1, j ) ed e(i , j −1) sono noti, allora si può calcolare e(i , j ). Ciascuno dei tre valori corrisponde infatti a un allineamento ottimo:

e(i −1, j −1) è il costo dell’allineamento ottimo di s₁··· a_i-1 e b₁ ··· b_j-1
e(i −1, j ) è il costo dell’allineamento ottimo di a₁ ··· a_i-1 e b₁ ··· b_j
e(i , j −1) è il costo dell’allineamento ottimo di a₁ ··· a_i e b₁ ··· b_j-1

Ognuno dei tre allineamenti può essere esteso a un allineamento tra a₁ ··· a_i e b₁ ··· b_j :

allineando a_i con b_j
allineando a_i con un gap
allineando un gap con b_j

Per mantenere l’ottimalità, bisognerà scegliere l’operazione che consente di ottenere l’allineamento di costo minimo. Notate che il generico valore e(i , j ) dipende solamente da e(i −1, j −1), e(i , j −1) ed e(i −1, j ), e può essere calcolato usando la seguente equazione:

Possiamo disporre questi valori in una matrice (assumiamo di contare le righe e le colonne a partire da zero) (m +1)×(n +1) (dove ε denota la stringa vuota):

È evidente che l’allineamento di una stringa vuota con una stringa x₁ ··· x_i ha costo i bisogna inserire i caratteri nella stringa vuota per ottenere x₁ ··· x_i ):

e(0, i) = e(i ,0) = i

In particolare, l’allineamento tra due stringhe vuote ha costo zero:

e(0,0) = 0

La matrice pertanto può essere riscritta cosí:

Sulla base delle osservazioni precedenti, la matrice può essere costruita riga per riga, ossia da sinistra a destra e dall’alto in basso. Il valore e(m,n) rappresenta l’edit distance tra s₁ e s₂. Di seguito viene riportato una possibile implementazione dell’algoritmo per il calcolo dell’edit distance tra s₁ = a₁ ···a_m e s₂ = b₁ ···b_n :

creare una matrice (m +1)×(n +1) chiamata M;
porre M_i,0 = i per 0 ≤ i ≤ m;
porre M_0,j= j per 0 ≤ j ≤ n;
per ogni riga i, con i che varia da 1 a m:

a) per ogni colonna j, con j che varia da 1 a n:

i.se a_i è uguale a b_j , porre c = 0, altrimenti porre c = 1

ii.porre M_i,j = min{M_i-1,j-1 + c , M_i,j-1 + 1 , M_{i-1,j + 1} }

produrre in output M_m,n

Riferimenti:

[1] Michael Gilleland, Merriam Park Software, Levenshtein Distance Algorithm, http://www.merriampark.com/ld.htm

Edit Distance o Levenshtein Distance: un algoritmo di similarità tra stringhe

COMMENTS

Lascia un commento Annulla risposta

Edit Distance o Levenshtein Distance: un algoritmo di similarità tra stringhe

RECOMMENDED FOR YOU

COMMENTS

Lascia un commento Annulla risposta