Réseau Quetelet

Manuel d'utilisation de la base de questions

Introduction

La base de questions du Réseau Quetelet permet une recherche dans les textes de questions, les modalités et les étiquettes de variable des enquêtes archivées et diffusées par les membres du réseau (CDSP, CMH-ADISP, INED). Elle vient compléter l'interrogation du catalogue de données qui permet de faire des recherches dans le titre ou le résumé des enquêtes. Cet outil de recherche offre la possibilité d'explorer les enquêtes à partir des questions posées aux interviewés. Il répond principalement à trois objectifs:

  • aide à la conception de questionnaire,
  • identification de séries de questions,
  • valorisation des enquêtes existantes.

La page d'accueil

L'interrogation de la base de questions peut se faire simplement à l'aide de mots. Il suffit de taper sa requête dans la zone de recherche centrale et de cliquer sur le bouton "Rechercher" ou de taper Entrée. La saisie semi-automatique assure de la présence de résultats.

La recherche se fait par défaut en français sur l'ensemble des enquêtes documentées en français et porte sur le texte des questions. Elle peut également être réalisée sur les modalités de réponse et sur les noms et étiquettes de variable. Par défaut, la recherche est étendue aux mots de même racine et ne prend pas en compte les mots vides.

Le menu du haut donne accès à la recherche avancée, à la personnalisation des recherches grâce à la définition des préférences utilisateurs , à la liste des enquêtes disponibles dans la base de questions, au guide d'utilisation de la base de questions et à la description du moteur de recherche dans la rubrique "A propos".

Choix de la langue d'interrogation

Une recherche en anglais portera sur les enquêtes documentées en anglais.

Champs de recherche

Seul le champ "question" est pris en compte par défaut. Il s'agit de la question littérale telle que posée par l'enquêteur.

Pour étendre la recherche aux deux autres champs, il suffit de cocher les cases "modalités" et "variable". Le champ "modalités" recouvre à la fois le code et l'étiquette des modalités. Le champ "variable" désigne le nom et l'étiquette de la variable.

Prenons un exemple simple :

  • "Quel est votre statut matrimonial?" correspond au texte de la question.
  • Les modalités ont respectivement pour code et étiquette : 1 - Célibataire, 2 - Marié, 3 - Veuf, 4 - Divorcé.
  • "MATRI" est le nom de la variable et "statut matrimonial de l'interviewé" l'étiquette de la variable.

La recherche simple

La base de question du réseau Quetelet est un moteur de recherche. Elle ressemble dans son fonctionnement et dans son utilisation aux moteurs de recherche généralistes comme Google ou Yahoo.

Les mots tapés dans la zone de recherche sont recherchés dans le texte de la question telle que posée par l'enquêteur, et éventuellement dans les modalités de réponse, dans le nom et l'étiquette de la variable.

La forme des mots saisis

La base de questions ne tient pas compte :

  • de la casse des lettres,
  • des lettres accentuées,
  • de l'ordre des mots.

Il est équivalent par exemple de taper français, Français ou francais.

La base de questions ne prend pas en compte le genre et le nombre des termes saisis. La requête est par défaut étendue aux mots de même racine, cette racine étant déterminée selon un algorithme de suppression des suffixes. Il est équivalent de taper français, française ou françaises dont la racine est "franc". Il est à noter que cette recherche retournera aussi des résultats avec France, franc, francs.

NB : La réduction des mots à leur racine peut être désactivée dans les préférences utilisateurs.

Les mots vides ou termes ignorés

Le moteur de recherche ignore les mots-outils (articles, prépositions, pronoms relatifs…) appartenant à ces listes : English , Français . Dans une recherche par mots-clés, ces mots fréquents et peu porteurs de sens ne sont généralement pas les plus intéressants et pourraient réduire la pertinence des résultats.

NB : Les mots vides peuvent néanmoins être pris en compte en cochant l'option correspondante dans les préférences utilisateurs.

La saisie semi-automatique

A mesure que l'utilisateur tape son texte, la saisie semi-automatique propose un complément de la chaîne de caractères en fonction des termes indexés dans la base de questions. Les propositions sont ordonnées selon le nombre de résultats pour le(s) terme(s) exact(s) suggéré(s).

La saisie semi-automatique propose également des couples de mots entre guillemets. Les guillemets appartiennent au langage de requête de la base de questions et permettent de rechercher des termes contigus ou des termes séparés uniquement par des mots vides.

Le langage de requête

Combinaison de mots-clés à l'aide d'opérateurs booléens

Les opérateurs booléens (AND, OR, NOT) servent à combiner les termes. Ils doivent obligatoirement être saisis en majuscules. Par défaut, le moteur de recherche utilise l'opérateur AND et retourne uniquement les résultats qui comprennent tous les mots saisis.

Exemples:

  • Saisir droit vote grève est équivalent à l'opération droit AND vote AND grève. Seuls les enregistrements qui comportent ces trois termes seront affichés
  • Les résultats de grève OR manifestation comportent au moins un de ces deux termes : soit grève, soit manifestation, soit les deux.
  • La recherche grève NOT droit retourne les enregistrements qui contiennent grève mais ne contiennent pas droit.

NB : La base de questions ne gère pas les synonymes, les sigles ou les abréviations. L'utilisation de l'opérateur OR peut permettre d'optimiser les résultats de la recherche. Il peut être judicieux par exemple de rechercher parti OR mouvement, parti socialiste OR PS, bac OR baccalauréat …

Recherche de phrases

Pour trouver une phrase, il suffit de la saisir entre guillemets , sachant que la recherche est, par défaut, étendue aux mots de même racine et ne prend pas en compte les mots vides.

Exemple : Avec les paramètres par défaut, saisir "droit de vote" entre guillemets revient à rechercher les mots droit et vote dans cet ordre, sachant qu'à chacun peut être substitué un mot de même racine (droite, voter…) et qu'ils peuvent éventuellement être séparés par un ou plusieurs mots vides. Par comparaison, sans guillemets, la recherche droit de vote renverrait tous les enregistrements qui contiennent à la fois droit et vote (ou des mots de même racine) quelle que soit leur position l'un par rapport à l'autre. Pour obtenir uniquement les résultats contenant l'expression exacte "droit de vote", il faut modifier les paramètres des analyses textuelles dans les préférences (ne pas étendre la recherche aux mots de même racine, prendre en compte des mots vides) et la saisir entre guillemets.

Les caractères jokers

La base de question permet l'utilisation de jokers pour remplacer zéro, une ou plusieurs lettresdans une chaîne de caractères.

  • Le point d'interrogation permet de remplacer un caractère. Par exemple, une recherche sur gr?ve trouve grave, gravé, grevé, grève, grive.
  • L'astérisque permet de remplacer 0, 1 ou plusieurs caractères. Par exemple, une recherche sur francais* retournera des résultats comprenant les termes français, française, françaises.

NB : L'extension de la requête aux mots de même racine n'est pas compatible avec l'utilisation de caractères jokers. Il faut désactiver cette option dans les préférences utilisateurs pour utiliser cette fonctionalité.

Recherche de mots à l'orthographe approchée

L'utilisation du symbole tilde comme dans España (obtenu en appuyant simultanément sur « Alt Gr » et sur la touche 2 du clavier principal) à la fin d'un mot et suivi d'un coefficient de similarité compris entre 0.5 et 0.9 permet de rechercher des mots à l'orthographe approchée. La similarité entre deux chaînes de caractères est fonction du nombre de transformations (insertion, suppression et substitution de lettres) nécessaires pour rendre les deux chaînes identiques. Plus le coefficient fixé est proche de 1, plus les chaînes sont similaires.

Exemple : Une recherche sur franc~0.5 retourne des résultats avec franc, francs, France mais aussi avec Franck, front, grand…

NB : L'extension de la requête aux mots de même racine n'est pas compatible avec la recherche de mots à l'orthographe approchée. Il faut désactiver cette option dans les préférences utilisateurs pour utiliser cette fonctionalité.

Recherche de proximité entre mots

Le symbole tilde suivi d'un nombre entier peut également servir à trouver des mots placés à une certaine distance les uns des autres. Les mots soumis à cette recherche de proximité doivent obligatoirement être saisis entre guillemets. Par exemple, la requête pour trouver parti et sympathique distants de moins de trois mots s'écrit : "parti sympathique"~3.

Il est à savoir que:

  • les mots vides ne comptent pas dans le calcul de la distance (sauf si l'option correspondante est sélectionnée dans les préférences utilisateurs),
  • l'ordre de saisie des mots n'a pas d'importance,
  • le texte considéré pour calculer la distance est constitué dans l'ordre : du texte de la question, puis des modalités et enfin de l'étiquette de variable.

"Booster" un terme

Pour accorder plus d'importance à un mot ou à une phrase par rapport à d'autres mots de la recherche, on peut utiliser un accent circonflexe associé à un facteur de « boost » (un nombre). Par exemple, pour « booster » le terme père par rapport à diplôme, on peut écrire : diplôme père^2

Cette opération ne modifie pas le nombre ou la nature des résultats. Elle intervient simplement dans le calcul du score de pertinence des résultats et donc dans l'ordre d'affichage des résultats.

Requêtes complexes

Il est évidemment possible de combiner ces opérateurs pour faire des requêtes complexes. Il faut utiliser les parenthèses pour définir la priorité des opérations les unes par rapport aux autres. La recherche de questions associant extrême droite et immigration pourrait s'écrire de la façon suivante : ("extreme droite" OR "front national" OR "le pen") AND (immigr* OR etranger*)

L'affichage des résultats

Tri des résultats

Par défaut, les résultats sont triés par score de pertinence. Ce score est fonction du nombre d'occurrences des termes dans les champs ciblés par la recherche ainsi que des correspondances exactes entre termes saisis et résultats de la requête. Si les termes apparaissent plusieurs fois, cela augmente le score de pertinence. Le calcul prend aussi en considération la fréquence d'apparition de chaque terme dans la base de questions. La présence dans la requête d'un terme peu courant dans la formulation de questions accroît le score de l'enregistrement qui le contient. La présence du terme tel qu'il a été saisi est "boostée" par rapport à un mot de même racine.

D'autres critères de tri sont disponibles:

  • par producteur de l'enquête,
  • par date de l'enquête (croissante ou décroissante),
  • par position de la question dans le fichier de données (croissante ou décroissante).

Description de la question

Les résultats comprennent par défaut les informations suivantes:

  • le texte de la question,
  • le texte de l'ensemble des items et les variables associées s'il s'agit d'une batterie de questions,
  • les modalités de réponse,
  • le nom et l'étiquette de la variable avec un lien vers le tri à plat,
  • l'enquête avec un lien vers sa notice descriptive.

Les items et les modalités de réponse sont cachés par défaut pour réduire le nombre d'informations sur une page de résultat.

loupe Il suffit de cliquer sur la loupe pour prendre connaissance de l'ensemble des items et des modalités.

Vous pouvez modifier cet affichage et choisir d'afficher 5 modalités par résultat.

NB : Dans les préférences utilisateurs, il est possible de compléter cette description de la question en choisissant d'afficher par exemple les instructions aux enquêteurs, le filtre auquel la question est éventuellement soumise, la position de la question dans le fichier de données… La question peut être replacée dans son contexte en ajoutant le lien vers le questionnaire et la navigation vers les questions précédentes et suivantes.

Affinage des résultats

Dans le menu de gauche, les résultats peuvent être affinés:

  • par producteur
  • par série d'enquête
  • par enquête
  • par décennie
  • en recherchant dans ces résultats
  • par concept

NB 1: La zone de saisie "Rechercher dans ces résultats" autorise l'utilisation du langage de requête.

NB 2: L'affinage par concept n'apparaît que si l'option correspondante est sélectionnée dans les préférences utilisateurs. Le concept associé à une question n'est disponible que si le producteur a réalisé une thématisation de l'enquête. Seules les enquêtes pré- et post-électorales du CEVIPOF sont thématisées.

Cliquer sur le bouton "Affiner la recherche" pour valider les affinages cochés ou les mots-clés supplémentaires saisis.

Cliquer sur « Réinitialiser » dans le menu d'affinage ou dans le bandeau supérieur récapitulant le nombre de résultats pour revenir aux résultats de votre recherche initiale.

Personnalisation du menu d'affinage

Vous pouvez personnaliser l'ordre des blocs d'affinage. Par exemple, pour déplacer l'affinage par "Enquête", il suffit de cliquer sur la barre de titre, de faire glisser le bloc vers le haut ou le bas et de le déposer à l'endroit souhaité.

L'organisation du menu d'affinage est automatiquement sauvegardée après modification.

Les blocs d'affinage disposent de fonctions de tri :

  • selon les affinages cochés/décochés,
  • par ordre alphabétique (pour les producteurs, les séries d'enquête, les enquêtes), par ordre chronologique (pour les décennies),
  • par nombre de résultats (croissant ou décroissant).

Sélection et export des résultats

ajouter Cliquer sur "ajouter à la sélection" pour sauvegarder les résultats qui vous intéressent dans votre panier.

En cliquant sur votre panier, les résultats sélectionnés sont présentés sous forme d'un tableau récapitulatif. L'enquête, son producteur, son diffuseur, le nom et l'étiquette de la variable, le texte de la question et les modalités de réponse sont rappelés.

Quelques précisions sur la signification des icones présents sur la page "Votre sélection"

supprimer Supprimer ces résultats de la sélection.

tout supprimer Supprimer tous les résultats de la sélection.

csv Exporter les résultats sélectionnés au format CSV .

xls Exporter les résultats sélectionnés auformat Excel.

Les préférences utilisateurs

Les préférences utilisateurs servent à personnaliser les recherches, c'est-à-dire les analyses textuelles effectuées et la description des questions. Il est également possible de configurer l'interface.

Une fois les modifications effectuées, il est nécessaire d' enregistrer les préférences pour qu'elles soient prises en compte lors des recherches ultérieures.

Paramètres des analyses textuelles

  • Etendre les recherches aux mots de même racine

    Cette option est cochée par défaut. C'est en effet la façon de procéder de la plupart des moteurs de recherche. Cela permet de ne pas restreindre la requête à la recherche du terme exact et offre une certaine souplesse quant au genre et au nombre des noms, des adjectifs, aux formes conjuguées des verbes…

    L'algorithme utilisé pour déterminer la racine d'un mot repose sur la connaissance des règles syntaxiques et grammaticales de la langue. La racine d'un mot est la partie restante une fois son suffixe supprimé. Il ne s'agit pas forcément d'un mot réel. Par exemple, environ est la réduction de environnement, mais vote a pour racine "vot ".

    NB 1: L'exemple précédent doit attirer l'attention sur les conséquences de l'usage des mots-racine. Certaines correspondances présentes dans les résultats peuvent sembler peu pertinentes. Une recherche sur environnement étendue aux mots de même racine retournera également toutes les questions contenant les mots environ, environner… Mais cela tient précisément au fait que la recherche s'effectue à partir de la racine des mots.

    En décochant cette option dans les préférences utilisateurs, les recherches s'effectueront par défaut sur les termes tels qu'ils ont été saisis.

    NB 2: L'utilisation de caractères jokers peut se révéler efficace pour assouplir ces requêtes sur termes exacts sans pour autant étendre la recherche à tous les mots de même racine.

  • Prendre en compte les mots vides

    En cochant cette option, les mots-outils (articles, prépositions, pronoms relatifs…) seront pris en compte dans les recherches.

Configuration de l'interface

Les paramètres des formulaires de recherche et de l'affichage des résultats peuvent être modifiés. Il est possible de:

  • désactiver la saisie semi-automatique,
  • d'afficher entre 5 et 25 résultats par page,
  • de choisir un autre critère de tri par défaut que le score de pertinence,
  • de mettre davantage en évidence les correspondances des termes de la requête dans les résultats en les surlignant en jaune.

Description de la question

La description des questions se limite par défaut au texte de la question, aux modalités de réponse, à la variable associée et à l'enquête dont la question est issue. Elle peut être complétée par:

  • le concept
    NB : Le concept associé à une question n'est disponible que si le producteur a réalisé une thématisation de l'enquête. Cette option donne ensuite la possibilité d'affiner les résultats par concept. Seules les enquêtes pré- et post-électorales du CEVIPOF sont thématisées.
  • les instructions aux enquêteurs
  • les textes précédant et suivant la question
  • l'univers c'est-à-dire les individus concernés par cette question (s'il est différent de l'univers de l'enquête) ou le filtre auquel la question est éventuellement soumise,
  • la position de la question dans le fichier de données sachant qu'elle donne en général une approximation de la position de la question dans le questionnaire,
  • des informations supplémentaires sur le recodage de la variable, sur le mode de passation spécifique à cette question…

La question peut être replacée dans son contexte en ajoutant:

  • le lien vers le(s) questionnaire(s) si les fichiers sont disponibles
  • la navigation vers les questions précédentes et suivantes.

La recherche avancée

Aide à la construction de requêtes

Le mode de recherche avancée peut vous aider à construire des requêtes complexes sans avoir à connaître le langage de requête.

Après avoir sélectionné la langue des enquêtes dans laquelle la recherche sera effectuée (le français par défaut), vous devez définir chaque filtre c'est-à-dire :

  • le champ de recherche (le texte de la question, les modalités de réponse, le nom et l'étiquette de la variable ou l'ensemble de ces trois champs)
  • les opérations en combinant les règles de présence et d'absence ("doit contenir", "peut contenir", "ne doit pas contenir") avec : "tous ces mots" (équivaut à AND), « au moins un des mots » (équivaut à OR), "la phrase" (équivaut à l'usage des guillemets), "ces deux mots distants d'au plus…" (équivaut au symbole tilde).

NB : Le langage de requête étant déjà pris en compte dans la définition des filtres, il ne peut pas être utilisé dans la zone de saisie. La saisie doit contenir uniquement des caractères alphanumériques et des espaces.

Recherche dans différents champs

L'intérêt majeur du mode de recherche avancée est de pouvoir combiner des requêtes portant sur différents champs, ce qui ne peut pas être fait avec le mode de recherche simple.

Exemple : Pour effectuer une recherche des questions sur la France en éliminant par avance celles sur le pays de naissance, on peut écrire:

  • Filtre 1 = tout | doit contenir | tous ces mots | France
  • Filtre 2 = la question | ne doit pas contenir | tous ces mots | pays naissance
  • Filtre 3 = la question | ne doit pas contenir | tous ces mots | lieu naissance

D'autres façons de rechercher

Rechercher dans l'ensemble des questions et des variables mises à disposition par le Réseau Quetelet puis procéder par des affinages successifs est le fonctionnement privilégié de la base de question. L’outil a été conçu dans cette perspective. Il peut néanmoins s’adapter à des usages plus spécifiques.

  • A partir d'une série d'enquêtes
    On peut limiter ses recherches à une série d'enquêtes en particulier. A partir de sa description (accessible par la liste des enquêtes), il suffit de cliquer sur "Toutes les questions et variables" pour charger les résultats de cette série.
  • A partir d'une enquête
    Il est également possible d'explorer une enquête précise. A partir de sa notice descriptive (accessible par la liste des enquêtes), il suffit de cliquer sur "Toutes les questions et variables" pour charger les résultats de cette enquête.
  • A partir d'un concept
    De même, il est possible de charger toutes les questions associées à un concept. A partir de la thématisation (accessible par la liste des enquêtes), il suffit de cliquer sur un concept pour charger l'ensemble des questions qui s'y rapporte.
    NB : Le concept associé à une question n'est disponible que si le producteur a réalisé une thématisation de l'enquête. Seules les enquêtes pré- et post-électorales du CEVIPOF sont thématisées.

L'affinage des résultats se fait ensuite en saisissant des mots-clés ou des requêtes plus complexes dans "Rechercher dans ces résultats".