Introduction#

Les procédures de Banff génèrent un certain nombre de données de sortie, qui peuvent être catégorisées comme suit:

Données de sortie standards:
- outdata, contenant les résultats de l’imputation (pour les procédures effectuant un traitement)
- outstatus, contenant les statuts (pour les procédures effectuant une sélection ou un traitement)
Données de diagnostique, contenant l’information utile spécifique à la procédure.

Noter que pour plusieurs données de sortie, <unit_id> apparaît comme en-tête de colonne. Il s’agit d’un élément de substitution; l’en-tête réel de la colonne est le nom de la variable spécifié dans le paramètre unit_id.

Liste des données de sortie#

Procédure	Données de sortie
verifyedits	néant - sortie imprimée au journal
editstats	`outedits_reduced` `outedit_status` `outk_edits_status` `outglobal_status` `outedit_applic` `outvars_role`
outlier	`outstatus` `outstatus_detailed` `outsummary`
errorloc	`outstatus` `outreject`
deterministic	`outdata` `outstatus`
donorimp	`outdata` `outstatus` `outdonormap` `outmatching_fields`
estimator	`outdata` `outstatus` `outacceptable` `outest_ef` `outest_lr` `outest_parm` `outrand_err`
prorate	`outdata` `outstatus` `outreject`
massimp	`outdata` `outstatus` `outdonormap`

Données de sortie communes à plusieurs procédures#

Procédure	outdata	outstatus	outdonormap	outreject
outlier		X
errorloc		X		X
deterministic	X	X
donorimp	X	X	X
estimator	X	X
prorate	X	X		X
massimp	X	X	X

Données de sortie standards#

Les procédures de Banff sont conçues pour être exécutées de manière séquentielle dans le cadre d’un processus de VDS. Les éléments de sortie d’une procédure servent souvent d’éléments d’entrée pour la procédure suivante, et les données statistiques qui sont la cible du processus de VDS sont mises à jour en permanence et tout au long du processus. Parmi les données de sortie, outdata et outstatus sont celles standards et communes à plusieurs procédures. Veuillez vous référer à la section intitulée interaction entre procédures du guide de l’utilisateur pour plus de détails.

outdata#

Les procédures exécutant des fonctions de traitement (deterministic, donorimp, estimator, prorate et massimp) produisent la table outdata, des données statistiques de sortie (c’est-à-dire des microdonnées) qui incluent le résultat de la fonction de traitement. Cela inclut à la fois les valeurs imputées (par exemple, imputées à partir de donorimp) et les valeurs modifiées (par exemple, les valeurs calculées au prorata à partir de prorate). Quelques remarques importantes sur outdata :

Typiquement, les données outdata ne sont pas une copie à l’image de indata mais contiennent uniquement les lignes et les colonnes affectées par la procédure. Par exemple, si indata contient 2000 lignes et 25 colonnes, mais seulement 500 lignes et 10 colonnes sont affectées par la procédure, alors outdata n’inclura que les 500 lignes et 10 colonnes. L’utilisateur doit manuellement mettre à jour les données indata à l’aide de l’information contenue dans outdata. (Note: l’équipe de Banff étudie la possibilité de mettre à jour de manière automatique les données indata à partir de l’information dans outdata, et ce dans une future version.)
Les données outdata vont toujours contenir la variable identifiée par le paramètre unit_id.
Si aucun enregistrement n’a été imputé avec succès ou modifié par la procédure, alors outdata sera vide. Aucune erreur ne se produira.

outstatus#

Puisque Banff fonctionne avec des données tabulaires, chaque observation peut être associée à une ligne et une colonne spécifiques dans outstatus. Les lignes sont identifiées par l’identifiant de l’enregistrement spécifié par l’utilisateur unit_id, alors que l’on fait référence aux colonnes par leur nom. Les statuts de sélection et/ou de traitement associés aux observations affectées par la procédure sont conservés dans les données des statuts de sortie, dont les colonnes sont les suivantes:

Colonne	Description
<unit_id>	Identifiant de l’enregistrement (c’est-à-dire la ligne) auquel le statut s’applique.
FIELDID	Identifiant du champ(c’est-à-dire la colonne ) auquel le statut s’applique.
STATUS	Code du statut tel que “FTI”, “FTE”, ou “IDN”.
VALUE	Valeur de la variable lorsque le code du statut a été généré. Pour les procédure effectuant la sélection (`errorloc` et `outlier`), cette colonnes correspond à la valeur de l’observation dans `indata` lorsque la sélection a eu lieu. Pour les procédures effectuant le traitement (`deterministic`, `donorimp`, `estimator`, `prorate`, `massimp`), cette colonne représente la valeur de l’observation dans `outdata` après que le traitement ait eu lieu.

Toutes les procédures exécutant des fonctions de sélection ou de traitement (c’est-à-dire toutes sauf verifyedits et editstats) produisent automatiquement outstatus contenant les drapeaux de sélection ou d’imputation. Certaines procédures lisent également des fichiers d’état en entrée (instatus); ceux-ci peuvent être nécessaires, selon la procédure.

editstats#

outedits_reduced#

Contient l’ensemble minimal des règles de vérification. La valeur EDITID est créée par la procédure pour être utilisée comme référence dans d’autres données de sortie.

Colonne	Description
EDITID	Numéro d’identification de la règle de vérification de l’ensemble minimal.
EDIT_EQUATION	La formulation de la règle de vérification.

outedit_status#

Nombre d’enregistrements qui satisfont chaque règle de vérification ou ne la satisfont pas à cause d’une valeur manquante ou non manquante.

Colonne	Description
EDITID	Numéro d’identification de la règle de vérification de l’ensemble minimal.
OBS_PASSED	Nombre d’observations qui satisfont la règle de vérification.
OBS_MISSED	Nombre d’observations qui ont une ou plusieurs valeurs manquantes pour les variables visées par la règle.
OBS_FAILED	Nombre d’observations qui ne satisfont pas la règle à cause d’une ou plusieurs valeurs non manquantes.

outk_edits_status#

Distribution des enregistrements qui satisfont un nombre donné de règles de vérification ou ne les satisfont pas à cause d’une valeur manquante ou non manquante.

Colonne	Description
K_EDITS	Nombre cumulé « k » de règles de vérification relevant de l’ensemble minimal.
OBS_PASSED	Nombre d’observations qui satisfont « k » règles de vérification.
OBS_MISSED	Nombre d’observations comportant une ou plusieurs valeurs manquantes pour les variables visées par « k » règles de vérification.
OBS_FAILED	Nombre d’observations qui ne satisfont pas « k » règles de vérification à cause d’une ou plusieurs valeurs non manquantes.

outglobal_status#

Nombre d’enregistrements qui satisfont toutes les règles de vérification de l’ensemble minimal ou ne les satisfont pas à cause d’une valeur manquante ou non manquante.

Colonne	Description
OBS_PASSED	Nombre d’observations dont l’état général est « PASS » (c’est-à-dire ayant satisfait à toutes les règles de vérification de l’ensemble minimal).
OBS_MISSED	Nombre d’observations dont l’état général est « MISS » (c’est-à-dire ayant une ou plusieurs valeurs manquantes pour une ou plusieurs règles de l’ensemble minimal, mais n’ayant aucun code d’état « FAIL » pour l’une de ces règles).
OBS_FAILED	Nombre d’observations dont l’état général est « FAIL » (c’est-à-dire ayant au moins un code d’état FAIL pour l’une des règles de l’ensemble minimal).
OBS_TOTAL	Nombre total d’observations.

outedit_applic#

Nombre de fois chaque variable est impliquée dans une règle de vérification qui est satisfaite ou non satisfaite à cause d’une valeur manquante ou non manquante.

Colonne	Description
FIELDID	Nom de la variable.
EDIT_APPLIC_PASSED	Nombre de fois où la variable a hérité du code d’état « PASS » attribué aux observations pour les règles concernées par cette variable.
EDIT_APPLIC_MISSED	Nombre de fois où la variable a hérité du code d’état « MISS » attribué aux observations pour les règles concernées par cette variable.
EDIT_APPLIC_FAILED	Nombre de fois où la variable a hérité du code d’état « FAIL » attribué aux observations pour les règles concernées par cette variable.
EDIT_APPLIC_NOTINVOLVED	Nombre de règles non concernées par la variable multiplié par le nombre d’observations.
EDITS_INVOLVED	Nombre de règles de vérification concernées par la variable.

outvars_role#

Nombre de fois chacune des variables contribue à l’état général de l’enregistrement.

Colonne	Description
FIELDID	Nom de la variable.
OBS_PASSED	Nombre de fois où la variable a eu une incidence sur le code d’état général « PASS » attribué aux observations.
OBS_MISSED	Nombre de fois où la variable a eu une incidence sur le code d’état général « MISS » attribué aux observations.
OBS_FAILED	Nombre de fois où la variable a eu une incidence sur le code d’état général « FAIL » attribué aux observations.
OBS_NOT_APPLICABLE	Nombre de fois où la variable n’a aucune incidence sur le code d’état général « MISS » ou « FAIL » attribué aux observations.

outlier#

outstatus_detailed#

Contient le statut détaillé de chaque valeur aberrante détectée. De l’information additionnelle est ajoutée lorsque outlier_stats=True est spécifié dans l’appel de la procédure.

Colonne	Description
<unit_id>	Identifiant de l’enregistrement.
FIELDID	Identifiant du champ.
OUTLIER_STATUS	Statut détaillé des valeurs aberrantes ayant quatre valeurs possibles: - `ODER`: Valeur aberrante à l’extérieur de l’intervalle d’exclusion à droite. - `ODEL`: valeur aberrante à l’extérieur de l’intervalle d’exclusion à gauche. - `ODIR`: Valeur aberrante à l’extérieur de l’intervalle d’imputation à droite. - `ODIL`: Valeur aberrante à l’extérieur de l’intervalle d’imputation à gauche.
METHOD	Méthode de détection des valeurs aberrantes.
CURRENT_VALUE	Valeur aberrante issue de `indata`.
WEIGHT	Poids appliqué à `CURRENT_VALUE`, au ratio ou à la tendance historique lorsque le paramètre `with_var` est spécifié.
HIST_AUX	Nom de la variable jumelée avec la variable `var` correspondante.
HIST_AUX_VALUE	Valeur de la variable jumelée avec la variable `var` correspondante (lorsque le paramètre `with_var` est spécifié).
EFFECT	Valeur de l’effet calculée pour l’enregistrement et utilisée pour comparer avec les bornes de l’intervalle dans le cadre des étapes de la détection des valeurs aberrantes.
GAP	Écart entre cet enregistrement et le précédent ayant une valeur différente (méthode SG).
IMP_SIGMAGAP	Écart-sigma de l’imputation calculé en multipliant `beta_i` par la déviation (méthode SG).
EXCL_SIGMAGAP	Écart-sigma de l’exclusion calculé en multipliant `beta_e` par la déviation (méthode SG).
IMP_BND_L	Méthode HB: Borne supérieure de l’intervalle d’imputation à gauche. Méthode SG: Premier écart identifiant les enregistrements à imputer à gauche.
EXCL_BND_L	Méthode HB: Borne supérieure de l’intervalle d’exclusion à gauche. Méthode SG: Premier écart identifiant les enregistrements à exclure à gauche.
EXCL_BND_R	Méthode HB: Borne supérieure de l’intervalle d’exclusion à droite. Méthode SG: Premier écart identifiant les enregistrements à exclure à droite.
IMP_BND_R	Méthode HB: Borne supérieure de l’intervalle d’imputation à droite. Méthode SG: Premier écart identifiant les enregistrements à imputer à droite.

outsummary#

Informations sommaires sur les valeurs aberrantes détectées, telles que le compte des observations et des états, ainsi que les sorties statistiques (comme les bornes de l’intervalle d’acceptation) calculées par la procédure.

Colonne	Description
NObs	Nombre d’observations dans `indata`.
NValid	Nombre d’observations valides.
NRejected_NoMatch	Nombre d’observations rejetées en raison de l’impossibilité de trouver une observation dans indata_hist lors de l’appariement à l’aide de `unit_id`.
FIELDID	Identifiant du champ. Si la détection des valeurs aberrantes est appliquée sur un ratio ou une tendance historique, alors `FIELDID` sera le numérateur.
NUsed	Nombre d’observations utilisées dans la détection des valeurs aberrantes.
NRejected	Nombre total d’observations rejetées pour le groupe de partition by en cours d’exécution et el champ `FIELDID`.
NRejected_VarMissing	Nombre d’observations rejetées en raison d’une variable d’intérêt manquante.
NRejected_VarZero	Nombre d’observations rejetées parce que la valeur de la variable d’intérêt est nulle (s’applique seulement lorsque `accept_zero=False`).
NRejected_VarNegative	Nombre d’observations rejetées parce que la valeur de la variable d’intérêt est négative (s’applique seulement lorsque `accept_negative=False`).
NFTI	Nombre d’observations identifiées pour une imputation (c’est-à-dire ayant un statut FTI).
NFTE	Nombre d’observations identifiées pour une exclusion (c’est-à-dire ayant un statut FTE).
IMP_BND_L	Méthode HB: Borne supérieure de l’intervalle d’imputation à gauche. Méthode SG: Premier écart identifiant les enregistrements à imputer à gauche.
EXCL_BND_L	Méthode HB: Borne supérieure de l’intervalle d’exclusion à gauche. Méthode SG: Premier écart identifiant les enregistrements à exclure à gauche.
EXCL_BND_R	Méthode HB: Borne supérieure de l’intervalle d’exclusion à droite. Méthode SG: Premier écart identifiant les enregistrements à exclude à droite.
IMP_BND_R	Méthode HB: Borne supérieure de l’intervalle d’imputation à droite. Méthode SG: Premier écart identifiant les enregistrements à imputer à droite.
AuxVarID	Variable auxiliaire servant de dénominateur lorsque la détection des valeurs aberrantes est utilisée sur un ratio ou une tendance historique.
NRejected_AuxVarMissing	Nombre d’observations rejetées en raison d’une variable auxiliaire manquante.
NRejected_AuxVarZero	Nombre d’observations rejetées en raison d’une variable auxiliaire nulle.
NRejected_AuxVarNegative	Nombre d’observations rejetées en raison d’une variable auxiliaire négative.
Q1	Premier quartile (Méthode HB).
M	Médiane (Méthode HB).
Q3	Troisième quartile (Méthode HB).
DEVIATION	Écart médian absolu si `sigma='MAD'` ou écart-type si `sigma='STD'` (Méthode SG).
IMP_SIGMAGAP	Écart-sigma d’imputation obtenu en multipliant `beta_i` par `DEVIATION` (Méthode SG).
EXCL_SIGMAGAP	Écart-sigma d’exclusion obtenu en multipliant `beta_e` par `DEVIATION` (Méthode SG).

errorloc#

outreject#

Enregistrements pour lesquels le problème de localisation des erreurs n’a pas pu être résolu.

Colonne	Description
<unit_id>	Identifiant de l’enregistrement.
NAME_ERROR	Prend une parmi deux valeurs possibles: - `CARDINALITY EXCEEDED`: La cardinalité de la solution pour cette observation dépasse la cardinalité maximale spécifiée dans le paramètre `cardinality`. - `TIME EXCEEDED`: Le temps requis pour traiter cette observation dépasse le temps maximal par observation spécifié dans le paramètre `time_per_obs`.

donorimp#

outmatching_fields#

Statuts des champs d’appariement utilisés dans le calcul de la distance. Ces statuts peuvent être différents pour chaque receveur.

Colonne	Description
<unit_id>	Identifiant du receveur.
FIELDID	Identifiant du champ.
STATUS	Prend une parmi quatre valeurs possibles: - `IDN`: Champ imputé en utilisant l’imputation par donneur. - `MFS`: Champ d’appariement sélectionné par le système. - `MFU`: Champ d’appariement spécifié par l’utilisateur. - `MFB`: Champ sélectionné par le système et spécifié par l’utilisateur.

outdonormap#

Paires receveur-donneur pour les enregistrements imputés avec succès.

Colonne	Description
RECIPIENT	Identifiant du receveur.
DONOR	Identifiant du donneur.
NUMBER_OF_ATTEMPTS	Nombre de donneurs essayés avant que le receveur ait pu satisfaire les règles de vérification après imputation.
DONORLIMIT	Reproduit la valeur du paramètre `n_limit` (même valeur pour tous les enregistrements).

estimator#

outacceptable#

Liste des observations acceptables utilisées dans le calcul des paramètres du modèle d’imputation.

Colonne	Description
ESTIMID	Numéro d’identification de l’estimateur défini à partir de l’ordre des modèles dans inestimator (commence par un zéro).
ALGORITHMNAME	Nom de l’algorithme (prédéfini dans la procédure ou personnalisé).
<unit_id>	Identifiant de l’enregistrement.

outest_ef#

Rapport du calcul des moyennes (functions d’estimation).

Colonne	Description
ESTIMID	Numéro d’identification de l’estimateur défini à partir de l’ordre des modèles dans inestimator (commence par un zéro).
ALGORITHMNAME	Nom de l’algorithme (prédéfini dans la procédure ou personnalisé).
FIELDID	Identifiant du champ pour lequel une moyenne est calculée.
PERIOD	Période courante (C) or historique (H) associée à la variable `FIELDID`.
AVERAGE_VALUE	Valeur moyenne pour le variable `FIELDID`.
COUNT	Nombre d’observations acceptables utilisées dans le calcul de la distance. Le nombre d’observations acceptables est le même dans le calcul de toutes les moyennes présentes dans la formule d’un estimateur.

outest_lr#

Rapport du calcul des coefficients « beta » (estimateurs par régression linéaire).

Colonne	Description
ESTIMID	Numéro d’identification de l’estimateur par régression linéaire défini à partir de l’ordre des modèles dans inestimator (commence par un zéro).
ALGORITHMNAME	Nom de l’algorithme (prédéfini dans la procédure ou personnalisé).
FIELDID	Nom de la variable (ou régresseur) pour laquelle un coefficient beta est calculé.
EXPONENT	Exposant du régresseur.
PERIOD	Période courante (C) ou historique (H) associée au régresseur.
BETA_VALUE	Valeur du coefficient « beta » associée au régresseur.
COUNT	Nombre d’observations acceptables utilisées dans le calcul des coefficients « beta ». Le nombre d’observations acceptables est le même dans le calcul de tous les coefficient « beta » présents dans la formule d’un estimateur.

outest_parm#

Statistiques de l’imputation.

Colonne	Description
ESTIMID	Numéro d’identification de l’estimateur par régression linéaire défini à partir de l’ordre des modèles dans inestimator (commence par un zéro).
ALGORITHMNAME	Nom de l’algorithme (prédéfini dans la procédure ou personnalisé).
FIELDID	Identifiant du champ.
FTI	Nombre de statuts FTI dans `instatus`, c’est-à-dire le nombre d’enregistrements nécessitant l’imputation.
IMP	Nombre de statuts I– dans `outstatus`, c’est-à-dire le nombre d’enregistrements imputés avec succès.
DIVISIONBYZERO	Nombre d’imputations non réussies car le calcul implique une division
par 0.
NEGATIVE	Nombre d’imputations non réussies car la valeur imputée est négative. (Not applicable if `accept_negative=True`.)

outrand_err#

Rapport sur l’erreur aléatoire.

Colonne	Description
ESTIMID	Numéro d’identification de l’estimateur par régression linéaire défini à partir de l’ordre des modèles dans inestimator (commence par un zéro).
ALGORITHMNAME	Nom de l’algorithme (prédéfini dans la procédure ou personnalisé).
RECIPIENT	Identifiant du receveur.
DONOR	Identifiant du donneur.
FIELDID	Identifiant du champ.
RESIDUAL	Calculé comme la différence entre la valeur originale du donneur et la valeur estimée, toutes deux associées au donneur.
RANDOMERROR	Si le type de l’algorithme est LR et une variance est utilisée: RESIDUAL* sqrt ((variance du receveur ^ exposant) / (variance du donneur ^ exposant)); sinon c’est la même valeur que `RESIDUAL`.
ORIGINALVALUE	Valeur de la variable avant imputation.
IMPUTEDVALUE	Valeur de la variable après imputation.

prorate#

outreject#

Enregistrements pour lesquels l’ajustement au prorata n’a pas pu être effectué.

Colonne

Description

<unit_id>

Identifiant de l’enregistrement.

NAME_ERROR

Prend une parmi sept valeurs possibles:

- DECIMAL ERROR: L’utilisateur a spécifié moins de décimales qu’il n’en existe dans le total ajusté.
- SCALING VALUE K GREATER THAN +1: L’intervalle acceptable pour le facteur k est: -1 <= k <= 1 .
- SCALING VALUE K LESS THAN -1: L’intervalle acceptable pour le facteur k est: -1 <= k <= 1 .
- NOTHING TO PRORATE: Il ne reste aucune variable à ajuster au prorata; elles ont toutes été éliminées parce que le modificateur n’indique pas que la variable peut être ajustée au prorata (en prenant en considération leur état dans instatus si le modificateur est O ou I) ou leur valeur est 0.
- OUT OF BOUNDS: La valeur arrondie divisée par la valeur originale n’est pas à l’intérieur de l’intervalle défini par les bornes.
- SUM OF PRORATABLE COLUMNS IS 0: Le facteur k ne peut être calculé car la somme pondérée des variables qui peuvent être ajustées au prorata est 0.
- NEGATIVE VALUE IN DATA: Une variable a une valeur négative alors que accept_negative=False.

massimp#

outdonormap#

Paires receveur-donneur pour les enregistrements imputés avec succès.

Colonne	Description
RECIPIENT	Identifiant du receveur.
DONOR	Identifiant du donneur.
NUMBER_OF_ATTEMPTS	Peut prendre une de deux valeurs possibles: (1) si le donneur a été sélectionné par la méthode du voisin le plus proche ou (0) s’il a été choisi de manière aléatoire.
DONORLIMIT	Reproduit la valeur du paramètre `n_limit` (même valeur pour tous les enregistrements).

Table des matières#

Introduction#

Liste des données de sortie#

Données de sortie communes à plusieurs procédures#

Données de sortie standards#

outdata#

outstatus#

editstats#

outedits_reduced#

outedit_status#

outk_edits_status#

outglobal_status#

outedit_applic#

outvars_role#

outlier#

outstatus_detailed#

outsummary#

errorloc#

outreject#

donorimp#

outmatching_fields#

outdonormap#

estimator#

outacceptable#

outest_ef#

outest_lr#

outest_parm#

outrand_err#

prorate#

outreject#

massimp#

outdonormap#

This Page