ホーム > LBCの特長(1)クレンジングノウハウ > データ整備のための教科書と辞書

データ統合ソリューションLBCの特長(1)クレンジングノウハウ

POINT 顧客データベースとデータ統合ソリューションLBCとのマッチング(突合)処理において、蓄積したナレッジ(クレンジングノウハウ)を用いることで、高いマッチ率を実現します。
これによって、より多くのデータを整備することができます。

1. データ整備のための教科書と辞書

 顧客データの整備をするためには、データ整備のルールが事前に決まっていなければなりません。一貫したルールで管理しなければ、データの整合性を確保できないからです。ところが、実際にはデータベースの管理ルールは一貫していないことがほとんどで、複数のデータベース間で一貫していないのはもちろんのこと、ひとつのデータベース内でさえルールがバラバラということが少なくありません。このままではデータを整備することはできません。そこで、データ整備のルールが必要になります。データ統合ソリューションLBCはこのルールの教科書だと考えて下さい。顧客データベースを教科書に即したルールで整備することで、データの一貫性を実現するわけです。

データ統合の課題

データ統合の課題


 顧客データベースに教科書のルールを適用するためには、顧客データベースと教科書とのマッチング(突合作業)が必要です。 しかしながら、顧客データベースと教科書は、そもそも別のルールですから、そのままマッチングしようとしてもうまくマッチしません。 そこで、顧客データベースと教科書とをマッチングするための辞書(ナレッジマスター)が必要になります。 ランドスケイプで顧客データをお預かりし、辞書に従ってルールを変換することで、異なるルールである顧客データベースと教科書とのマッチングが可能になります。



マッチングの辞書

マッチングの辞書


 LBCの特長のひとつは、この辞書が豊富であることです。
  以下では、この辞書について説明していきます。


辞書1. 過去情報

 データベース同士のマッチングを行う際に、失敗してしまう例として片方のデータが古いといったデータ鮮度の問題があげられます。例えば、顧客データが旧社名や旧住所の場合、そのままの状態ではデータ統合ソリューションLBCとマッチさせることが出来ません。そこで、データ統合ソリューションLBCは過去情報を辞書として利用します。具体的には、社名変更や住所移転、統廃合といった過去のイベントを蓄積したマスター(辞書)を利用することによって、顧客データが旧社名や旧住所であっても自動的に変換してマッチさせます。


過去情報を自動的に変換/過去情報マスター



辞書2. 企業名ナレッジ

過去情報と同じく、略称や誤記しやすい社名などが入力されているため、マッチングに失敗するケースがあります。例えば、「日本電気」を「NEC」と記載している場合や「全日本空輸」を「全日空」と記載しているケースです。ランドスケイプでは、過去に実施してきているマッチング作業の中で得られた、こうした「データ入力の癖」をナレッジとして蓄積しています。御社の顧客データが略称や起こりがちな誤記社名で入力されていても、このナレッジを用いることで自動的に正式社名に変換して、マッチングすることが可能です。


略称・起こりがちな誤記入を自動的に変換/企業名ナレッジマスター



辞書3. 書式

 前項に比べると、より些細なことのように思われますが、細かな表記のユレによってデータのマッチングがうまくいかないケースもあります。ランドスケイプでは、データクレンジングの技術によって、住所表記の統一(通称住所の正式住所表記への変換)などを施します。また、市町村合併などによる住所そのものの変更についても、旧住所の新住所への変換処理を行うことが可能です。


書式統一/市町村合併マスター


 以上でみてきたように、顧客データに誤字脱字、旧社名、旧住所、統廃合前情報などが含まれていた場合でも保有する辞書(各種ナレッジ)を利用してデータ統合ソリューションLBCとのマッチング処理を行いますので、高いマッチング精度を実現することができます。
 それでは、顧客データとデータ統合ソリューションLBCのマッチ率はどのくらいなのでしょうか。顧客データの状態にもよりますので、一概にいうことはできないのですが、過去の経験から平均75-80%のマッチ率となっております。残りの20‐25%の多くは住所が空白であったり、存在しない事業所だったりといった不備データのケースが多いです。

データ統合ソリューションLBCとのマッチ率が想定よりも低いケースとして、
・古いデータ(5年以上前に収集したデータ)が多い
・中小企業が中心のデータが多い
・建設現場などの仮設事業所のデータが多い
・社名ではなく屋号が入力されているデータが多い
といったケースがあげられます。

* 平均マッチ率は過去の実績に基づくものであり、マッチ件数を保証するものではありません。