Agra VIQ 名寄せのオペレーション(例)
Agra VIQの名寄せでは右図のように
(1)2つのデータテーブルを読み込み
(2)比較するカラムの設定
(3)比較条件の設定
(4)実行時の条件
を行った後実際に名寄せを行います。
2つのデータテーブルはクレンジングツールから2つのシートの選択を行う、もしくは2つのCSVをダイアログに従い指定することで実行されます。

(2)比較するカラムの設定
2つのデータテーブルを読み込んだ段階で以下のような画面になりますので、ここで双方で比較対象とするカラムを設定します。

(3)比較条件の設定
次に比較条件を設定します。ここでは「ほぼ一致」であるとみなす「合致率」の設定のほかに、名寄せの動作モードや複数のカラムを同時比較する際にそれぞれを「必須」とするかなどの条件を設定することができます。

(4)実行条件の設定
実行条件では実行におけるオプション動作の設定を行います。「データの途中からの名寄せ実行」「名寄せ対象の存在したデータの出力」「名寄せ対象の存在しないデータの出力」などを設定し、繰り返しの名寄せを行うことのできるような仕組みを提供しています。

名寄せ結果
(1)-(4)までの設定後「名寄せ実行」ボタンを押すことで下図のような名寄せ結果を得ることができます。

Agra VIQの名寄せの3種類の比較パターン
比較条件において名寄せの比較パターンを以下の3種類から設定することができます。
3種類を比較カラム毎で組み合わせることで、様々な名寄せパターンに対応します。
- 2つのカラムデータを比較し、似ているデータを抽出する。
- 順方向での一致のみで高速抽出する。
- 部分一致にて類似項目を抽出する
1. 2つのカラムデータを比較し、似ているデータを抽出する。(通常名寄せ)
以下のような例の場合、カラム単位での比較なので75%の一致率のアグラ社が名寄せ結果となります。この基本名寄せは氏名、数字、番号などカラム全体での比較が必要な場合に使用します。

2. 順方向での一致のみで高速抽出する(順方向名寄せ)
順方向でのマッチングで一致しない文字列があった場合に照合を打ち切りそこまでの一致数を合致率と判断します。
以下の例では「ラグア株式会社」は全体としては類似率が高く、通常名寄せではヒットしますが順方向では1文字目が異なるので結果としては出力されません。
この機能は主に十分クレンジングされたデータを用いた場合に有効で、検索速度を求める場合に使用します。

3. 部分一致にて類似項目を抽出する(部分一致名寄せ)
部分一致(ワードスポット)では検索対象のなかで似ている部分を全体からサーチして近い部分同士を名寄せ一致演算します。
以下の例では「アグラ」文字列は「アグラ株式会社」「アグラ社」においては部分一致100%となります。「ラグア株式会社」に関してはスポット箇所が「ラグア」となるためおよそ66%以上ならヒット、それ以下なら結果として抽出されません。
部分一致は比較的高い合致率でも結果を抽出しやすい傾向にあります。他の2種類と使い分ける事で様々なテーブルデータに対応可能となります。
