這篇我們看看最長公共子序列的另一個版本,求字串相似度 (編輯距離),我也說過了,這是一個非常實用的演演算法,在 DNA 對比,網
頁聚類等方面都有用武之地。
一:概念
對於兩個字串 A 和 B,透過基本的增刪改將字串 A 改成 B,或者將 B 改成 A,在改變的過程中我們使用的最少步驟稱之為 “編輯距離” 。
比如如下的字串:我們透過種種操作,痙攣之後編輯距離為 3,不知道你看出來了沒有?

二:解析
可能大家覺得有點複雜,不好理解,我們試著把這個大問題拆分掉,將” 字串 vs 字串 “,分解成” 字元 vs 字串 “,再分解
成” 字元 vs 字元 “。
<1> ” 字元 “vs” 字元 “
這種情況是最簡單的了,比如”A“與”B“的編輯距離很顯然是 1 。
<2> ” 字元”vs” 字串”
”A“改成”AB“的編輯距離為 1,“A” 與 “ABA” 的編輯距離為 2 。
<3>“字串”vs“字串”
“ABA” 和 “BBA” 的編輯距離為 1,仔細發現我們可以得出如下結論,”ABA“是由 23 個子序列與”BBA“字串求的的編輯距離集
閤中取出的最小編輯距離,也就是說在這種情況下我們出現了重複計算的問題,我在求子序列”AB“和”BBA” 的編輯距離時,我是由
子序列”A“和”BBA“與”B“和”BBA“之間的編輯距離中選出一個最小值,然而序列 A 和序列 B 早之前我已經計算過了,這種重複計算
的問題有點像” 斐波那契”,正好滿足 “動態規劃” 中的最優子結構和重疊子問題,所以我們決定採用動態規劃來解決。
 
三:公式
跟 “最長公共子序列” 一樣,我們採用一個二維陣列來儲存字串 X 和 Y 當前的位置的最小編輯距離。
現有兩個序列 X={x1,x2,x3,…xi},Y={y1,y2,y3,….,yi},
設一個 C[i,j]: 儲存 Xi 與 Yj 的當前最小的 LD 。
①: 當 Xi = Yi 時,則 C[i,j]=C[i-1,j-1];
②:當 Xi != Yi 時, 則 C[i,j]=Min{C[i-1,j-1],C[i-1,j],C[i,j-1]};
最終我們的 C[i,j] 一直儲存著最小的 LD 。
 
四:程式碼

1 using System;
2
3 namespace ConsoleApplication2
4 {
5 public class Program
6 {
7 static int[,] martix;
8
9 static string str1 = string.Empty;
10
11 static string str2 = string.Empty;
12
13 static void Main(string[] args)
14 {
15 while (true)
16 {
17 str1 = Console.ReadLine();
18
19 str2 = Console.ReadLine();
20
21 martix = new int[str1.Length + 1, str2.Length + 1];
22
23 Console.WriteLine(“ 字串 {0} 和 {1} 的編輯距離為:{2}n”, str1, str2, LD());
24 }
25 }
26
27 ///

28 /// 計算字串的編輯距離
29 ///

30 ///
31 public static int LD()
32 {
33 //初始化邊界值 (忽略計算時的邊界情況)
34 for (int i = 0; i <= str1.Length; i++) 35 { 36 martix[i, 0] = i; 37 } 38 39 for (int j = 0; j <= str2.Length; j++) 40 { 41 martix[0, j] = j; 42 } 43 44 //矩陣的 X 座標 45 for (int i = 1; i <= str1.Length; i++) 46 { 47 //矩陣的 Y 座標 48 for (int j = 1; j <= str2.Length; j++) 49 { 50 //相等情況 51 if (str1[i - 1] == str2[j - 1]) 52 { 53 martix[i, j] = martix[i - 1, j - 1]; 54 } 55 else 56 { 57 //取 “左前方”,“上方”,“左方 “的最小值 58 var temp1 = Math.Min(martix[i - 1, j], martix[i, j - 1]); 59 60 //獲取最小值 61 var min = Math.Min(temp1, martix[i - 1, j - 1]); 62 63 martix[i, j] = min + 1; 64 } 65 } 66 } 67 68 //返回字串的編輯距離 69 return martix[str1.Length, str2.Length]; 70 } 71 } 72 }     文章來自網際網路部落格網站,原文地址:http://www.cnblogs.com/huangxincheng/archive/2012/11/11/2765633.html