Les risques en cascade de mauvaises données d'enquête : Pourquoi les entreprises doivent considérer la qualité comme une base et non comme un filtre

Temps de lecture
1 min
Auteur·e
Marc Di Gaspero
Date de publication
11 novembre 2024

- Marc Di Gaspero, responsable de la qualité des données chez Potloc,nous parle de la « recherche sur la recherche ».

Le problème de la qualité des données dans le secteur du conseil et du capital-investissement.

Lorsque des données erronées sont à l'origine de décisions dans le secteur du conseil et du capital-investissement, les conséquences peuvent être graves : des investissements qui ne donnent pas les résultats escomptés, des stratégies clients qui n'aboutissent pas et des idées de leadership éclairé qui compromettent la réputation. IBM a estimé que la mauvaise qualité des données a coûté aux États-Unis 3,1 billions de dollars en 2016, et ce chiffre est sans aucun doute plus élevé aujourd'hui. Pourtant, dans l'écosystème des enquêtes d'aujourd'hui, garantir la qualité des données devient de plus en plus difficile - la fraude sévit depuis longtemps dans le secteur des enquêtes, avec des problèmes tels que les fermes à clics et l'utilisation de VPN qui contribuent au défi. La situation n'a fait qu'empirer avec la montée en puissance de la GenAI.

Les sociétés de conseil et de capital-investissement veulent des données de qualité - sinon pourquoi investiraient-elles dans la recherche primaire ? Mais lorsque la pression pour réduire les coûts et livrer rapidement se fait sentir, les enquêtes « rapides et sales » peuvent être séduisantes, en particulier lorsque les fournisseurs se vantent de leur capacité à supprimer les entrées frauduleuses ou sous-optimales. Malheureusement, les mauvaises données se glissent toujours entre les mailles du filet, et aucun nettoyage ne peut compenser entièrement des données qui n'étaient pas saines à la source.

Quelle est donc la solution ? Il est temps de passer du filtrage des mauvaises données à l'assurance de la qualité des données à la source. Une nouvelle recherche sur la recherche (RdR) de Potloc montre qu'une approche proactive de la sélection et du mélange des sources d'échantillonnage n'est pas seulement une atténuation des risques - c'est un avantage concurrentiel caché.

Mais d'abord, qu'est-ce que la qualité des données ?

Nous définissons la qualité des données comme la collecte de données fiables et authentiques, obtenue lorsque les personnes sont honnêtes, attentives et engagées lorsqu'elles répondent à une enquête. Cette définition est conforme à l'initiative Global Data Quality (GDQ). Nous pensons également que la qualité des données résulte de la combinaison de trois facteurs :

  1. La source :
    D'où viennent les personnes interrogées ? Comme nous le verrons, toutes les sources d'approvisionnement ne fournissent pas des répondants aussi honnêtes, attentifs et engagés, ni n'impliquent les mêmes coûts d'acquisition et les mêmes délais de mise en œuvre.
  2. L'expérience des répondants:
    Quel type d'expérience faites-vous vivre aux personnes interrogées ? Est-elle rapide et fluide, ou répétitive et fastidieuse, sans incitations suffisantes ? Plus vos répondants sont impliqués, plus ils feront d'efforts, en particulier pour les réponses ouvertes.
  3. Nettoyage des données :
    Quelles sont les mesures mises en place pour contrôler les réponses et éliminer les répondants inadéquats ? Si cette étape est essentielle, il est tout aussi crucial de reconnaître qu'aucun nettoyage des données ne permettra d'éliminer tous les répondants frauduleux ou sous-optimaux d'un échantillon.

Notre étude : Mesurer comment la qualité, la rapidité et le coût varient d'une source à l'autre.

Conscient du risque croissant que représentent les mauvaises données, Marc Di Gaspero, responsable de la qualité des données chez Potloc, a entrepris de mener une étude « recherche sur recherche » afin de déterminer comment les différentes sources de données se situent en termes de qualité - ainsi que les facteurs connexes tels que la vitesse, le coût et la portée.

La configuration :

L'étude a évalué comment cinq sources de répondants différentes se sont comportées pour fournir de « bonnes » données : des répondants honnêtes, attentifs et engagés. Pour ce faire, nous avons échantillonné 6 000 adultes américains, chacun d'entre eux ayant au moins un abonnement (service de streaming, abonnement à une salle de sport, magazine). Les sources que nous avons comparées sont les suivantes :

Nous avons examiné 5 panels en ligne, fournissant chacun 500 répondants. Nous appelons ces panels des « services gérés » en raison de la manière dont nous avons travaillé avec eux : nous avons interagi avec un responsable de la réussite des clients qui nous a aidés tout au long du processus de collecte des données (c'est-à-dire qu'il n'y a pas de plateforme en libre-service où nous pourrions créer, lancer, gérer et clôturer notre projet d'étude nous-mêmes).
Nous avons examiné 5 places de marché (échanges d'échantillons) et des solutions d'échantillonnage à la carte, fournissant 500 répondants chacune. Les places de marché et les solutions d'échantillonnage DIY sont combinées pour les besoins de l'étude car elles partagent des caractéristiques similaires : (1) elles offrent une interface où nous pouvons mettre en place, lancer, gérer et clôturer notre projet d'étude nous-mêmes, et (2) elles agrègent le trafic de plusieurs panels en ligne sans fournir de trafic propriétaire, agissant essentiellement comme un intermédiaire entre les fournisseurs d'échantillons (panels en ligne) et les acheteurs (marques, agences de RM, etc.).
Nous avons échantillonné 250 répondants non incités par SMS. Potloc a été le pionnier de l'échantillonnage des médias sociaux (SMS) il y a près de 10 ans. Notre approche consiste à promouvoir des publicités payantes sur les plateformes de médias sociaux (Facebook, Instagram, LinkedIn, etc.) pour conduire les utilisateurs de médias sociaux directement vers les enquêtes. Cette méthodologie capitalise sur l'intérêt des utilisateurs de médias sociaux à partager leurs opinions sur des sujets « pour ce qu'ils valent » (ce qui signifie que nous ne les avons pas incités à répondre à nos enquêtes).
Nous avons échantillonné 250 répondants incités par SMS. La méthodologie est la même que celle décrite ci-dessus, à la nuance près que les utilisateurs de médias sociaux sont incités à répondre à l'enquête (à condition qu'ils passent avec succès notre processus de nettoyage des données, qui prévoit de multiples contrôles de qualité avant, pendant et après l'enquête).
Nous avons échantillonné 500 répondants par l'intermédiaire de la communauté Potloc. Ce panel est composé exclusivement d'utilisateurs de médias sociaux qui ont répondu avec succès à nos enquêtes par SMS et ont manifesté leur intérêt à participer à d'autres enquêtes Potloc, et n'est pas partagé avec d'autres fournisseurs d'échantillons. Les membres de la communauté sont toujours motivés, à condition qu'ils passent avec succès notre processus de nettoyage des données.

Potloc a conçu l'étude de manière à ce que toutes les sources soient évaluées sur un pied d'égalité. Les questionnaires d'enquête et les contrôles de qualité utilisés ont été normalisés pour toutes les sources, ne laissant que la source elle-même comme variable ayant un impact sur la qualité des données. Pour comparer les sources, nous avons utilisé le rapport relatif entre la qualité des données bonnes et mauvaises, plutôt que de simplement compter le nombre de bons répondants. Cette mesure était plus fiable car elle nous permettait de nous concentrer sur les différences de qualité entre les sources, et non sur d'autres éléments tels que la fréquence de l'enquête, les surquotas, les partiels et les inadmissibles.

Cette mesure compare la part des personnes ayant terminé l'enquête qui ont passé avec succès les contrôles de qualité avant, pendant et après l'enquête (répondants de « bonne qualité ») avec la part des participants à l'enquête qui ont été exclus avant ou pendant l'enquête, ou des personnes ayant terminé l'enquête qui ont été retirées après l'enquête pour des raisons de qualité (répondants de « mauvaise qualité »). 

Elle exclut délibérément d'autres statuts finaux (participants à l'enquête à haute fréquence, surquotas, partiels et inéligibles) afin de minimiser le bruit.

Le statut final d'un répondant dans notre étude peut être l'un des suivants :

Bonne qualité: Les répondants qui ont passé avec succès les contrôles de qualité avant, pendant et après l'enquête.

Mauvaise qualité: Les participants à l'enquête ont été interrompus avant ou pendant l'enquête, ou les personnes ayant terminé l'enquête ont été retirées après l'enquête en raison de problèmes de qualité.

Participant actif à l'enquête (15-30) : Les participants à l'enquête ont été éliminés avant l'enquête parce qu'ils ont tenté de participer à plus de 15 à 30 enquêtes au cours des dernières 24 heures, selon l'activité du Défenseur de la recherche.

Enquêteur professionnel (>30) : Les participants à l'enquête ont été interrompus avant l'enquête parce qu'ils ont tenté de répondre à plus de 30 enquêtes au cours des dernières 24 heures, selon les mesures de l'activité du Défenseur de la recherche.

Hors quota: Les participants à l'enquête ont été éliminés au cours de l'enquête (dans le filtre) parce que le quota auquel ils correspondent sur la base de leur profil est déjà plein.

Inéligibles: Les participants à l'enquête ont été éliminés au cours de l'enquête (dans le filtre) parce que leur profil ne répond pas aux critères de qualification de l'enquête.

Partiel: Participants à l'enquête qui abandonnent l'enquête avant de la terminer.

Principales conclusions :

  • La qualité varie considérablement d'une source d'approvisionnement à l'autre.
graph1-1
L'échantillonnage des médias sociaux et les sources communautaires de Potloc étaient intrinsèquement de meilleure qualité, démontrant une plus grande proportion de répondants de bonne qualité à la fois en termes absolus (exprimés en % du statut final des participants à l'enquête) et en termes relatifs (exprimés par le ratio de bonne qualité par rapport à la mauvaise qualité).
  • Les sources de qualité peuvent nécessiter un investissement initial plus important en termes de coûts et de temps.
graph2-2
Des sources de meilleure qualité ont naturellement un coût. Si vous voulez que 500 PDG répondent à une enquête, par exemple, quelques dollars suffiront à peine à les motiver.
graph3-2
Les sources de meilleure qualité ont également nécessité plus de temps sur le terrain pour trouver les bons répondants. Remarque : les sources évaluées dans le cadre de cette étude n'ont pas été optimisées pour les conditions réelles, c'est-à-dire pour le « client crunch ».

Ce que cela signifie pour les consultants et les investisseurs en capital-investissement :

  • Lorsque la collecte des données commence par des répondants attentifs, honnêtes et engagés, le nettoyage des données devient un processus d'affinage - plutôt qu'une opération de sauvetage. Cette différence permet de distinguer les informations qui font parler d'elles de celles qui ne font qu'ajouter au bruit. Pour les sociétés de conseil et de capital-investissement, pour lesquelles la rapidité et la précision sont essentielles, investir dans des données de qualité dès le départ permet d'éviter les retards potentiels dans le nettoyage des données, les atteintes à la réputation et l'augmentation des coûts au bout du compte.
  • Cela dit, aucune source n'est sans faille. Heureusement, les spécialistes de l'étude de marché ont aujourd'hui mis au point des mesures avancées de nettoyage des données qui peuvent rendre presque n'importe quel échantillon au moins suffisamment bon. Cela est d'autant plus utile que les décisions d'approvisionnement ne dépendent pas uniquement de la qualité - la portée, la rapidité et le coût varient également d'une source à l'autre. En fait, un mélange de sources soigneusement sélectionnées (échantillonnage multi-sources) est souvent nécessaire pour obtenir des échantillons extra-larges ou ultra-niches, en particulier lorsque vous êtes pressé par le temps et le budget.

Intégrer la qualité des données dans votre processus dès aujourd'hui.

  1. Exigez la transparence de la part de vos fournisseurs d'échantillons.
    De nombreux fournisseurs regroupent des répondants provenant de sources externes sans en faire état. Nous avons constaté que les fournisseurs d'échantillons (même certains fournisseurs « premium ») prétendaient envoyer des répondants exclusifs à l'enquête, mais une enquête parallèle menée par Potloc sur deux panels a révélé que seuls 1 à 4 % des répondants étaient réellement exclusifs (c'est-à-dire qu'ils provenaient d'autres panels). L'échantillonnage multi-sources est une réalité, mais un manque de transparence peut compromettre l'intégrité de vos données. En tant qu'acheteur, demandez des détails clairs sur les sources d'approvisionnement. Si votre fournisseur n'est pas en mesure d'assurer la transparence, c'est le signe que vos données ne sont peut-être pas aussi fiables qu'il le prétend.
  2. Le contexte compte : Adaptez vos décisions aux exigences de votre projet.
    Le contexte de votre projet dicte le type de données dont vous avez besoin. Pour les projets qui évoluent rapidement et dont les délais sont serrés, de bonnes données - lorsqu'elles sont triangulées avec d'autres sources telles que des appels d'experts - peuvent être suffisantes. Mais pour les projets à fort enjeu qui exigent des informations uniques, vous avez besoin de données de grande qualité. C'est là qu'un conservateur d'échantillons compétent devient un avantage concurrentiel, en mélangeant soigneusement plusieurs échantillons pour fournir exactement ce dont votre projet a besoin : rapidité, profondeur, ou un équilibre des deux.
  3. Expérience des répondants : Un autre facteur négligé.
    Entre la sélection des sources d'échantillonnage et le nettoyage des données se trouve un aspect crucial mais souvent négligé : l'engagement des répondants. Engager les répondants dès le départ permet de s'assurer que les données collectées sont non seulement propres, mais aussi significatives et exploitables, en particulier dans le cadre de décisions stratégiques à fort enjeu. Les fournisseurs d'échantillons et vous-même avez un rôle à jouer dans la conception et l'optimisation des enquêtes. À ce propos, je vous invite à consulter notre prochaine étude « Research on Research » : Notre prochaine étude Research on Research portera sur l'impact de l'expérience des répondants sur la qualité des données.

Trouvez l'équilibre avec les experts en échantillonnage de Potloc.

Choisir la ou les bonnes sources d'approvisionnement et calibrer le coût, la rapidité et la qualité peut sembler une corvée lorsque vous avez déjà d'autres priorités en cours. Un partenaire d'enquête complet peut vous aider à simplifier la recherche de répondants.

La plateforme et les experts de Potloc répondent exclusivement aux besoins des sociétés de conseil et de capital-investissement : Il vous suffit de nous indiquer vos objectifs de recherche et nous combinerons nos sources exclusives et les sources de notre réseau de partenaires vérifiés pour vous fournir le bon mélange de sources, avec la qualité, la rapidité et le coût adéquats.

Découvrez comment Potloc a aidé EY-Parthenon à résoudre les problèmes d'échantillonnage et de qualité des données.

Lire maintenant