ホーム > LBCの特長(1)クレンジングノウハウ > 重複判定精度の向上

データ統合ソリューションLBCの特長(1)クレンジングノウハウ

3. 重複判定精度の向上

 このような「辞書」を活用したクレンジングノウハウの非常に分かりやすい効果は重複判定です。目視しただけでは重複と分からないような重複データを特定することが可能になります。以下でも、ランドスケイプの営業担当者が入力した名刺情報を利用してご紹介しましょう。

データ種別 社 名 住 所 建物名 電話番号
入力データ1 大塚製薬(株) 東京都千代田区神田司町2丁目9   03-3292-0XXX
入力データ2 大塚製薬(株) 東京都港区港南2-16-4 品川グランドセントラルタワー 03-6716-1XXX

 こちらは別事業所ではありません。大塚製薬(株)のホームページによれば2007年3月に住所移転が行われており、現在は入力データ2の港区に本社を構えています。つまり、データ入力時期の違いによる重複データということになります。


データ種別 社 名 住 所 建物名 電話番号
入力データ1 (株)樫村 東京都千代田区鍛冶町1丁目6-14   03-3256-1XXX
入力データ2 加賀ハイテック(株) 東京都文京区本郷2丁目2-9   03-4455-3XXX

 こちらも別会社ではなく、2006年に社名変更とそれに伴う住所移転を行っていることが分かります。住所も社名も異なりますが、重複データとなります。


データ種別 社 名 住 所 建物名 電話番号
入力データ1 (株)住友金属システムソリューションズ 大阪府大阪市北区堂島浜1丁目2-6新ダイビル   06-4799-8XXX
入力データ2 キヤノンシステムソリューションズ(株) 東京都港区三田3-11-34センチュリー三田ビル   03-5730-7XXX
入力データ3 キヤノンITソリューションズ(株) 東京都港区三田3丁目11-28   03-5730-7XXX

 こちらは三重重複の事例となります。2003年1月に(株)住友金属システムソリューションズがキヤノンシステムソリューションズ(株)に社名変更、その後、2008年4月にキヤノンITソリューションズ(株)に社名変更し、それに伴う住所移転が行われていますが、実際には同一の事業所となります。


 このようにデータ統合ソリューションLBCの「辞書」を用いることで、重複判定率は向上します。それでは、どのくらいの向上が期待できるのでしょうか。こちらはあくまで参考となりますが、先ほどから利用しているランドスケイプの営業担当が入力した名刺情報について、データ統合ソリューションLBCを用いて名寄せした場合と利用せずに名寄せ処理を行った場合の比較をしてみましょう。

 データ統合ソリューションLBCを利用した場合、22,128件のうち1,038件(4.7%)が重複であると特定できるのに対して、利用せずに行うと458件(2.1%)しか特定できません。この差はクレンジング精度を向上させる辞書の差となります。

LBCを用いて名寄せした場合と利用せずに名寄せ処理を行った場合の比較


   以上で述べてきたクレンジングノウハウがLBCの特長の1点目です。