Richard FOURNIER, Une mesure de rendement du codage en analyse de contenu: l’indice MRC, 1985

UNE MESURE DE RENDEMENT
DU CODAGE
EN ANALYSE DE CONTENU :
L'INDICE MRC

Richard Fournier

Décembre 1985

Dépôt légal : premier trimestre 1986
Bibliothèque nationale du Québec
ISBN 2-550-08543-4

L'auteur est membre de la Direction de l'éducation permanente à la Direction générale des politiques et des plans du ministère de l'Éducation du Québec.

Ce texte fait suite au fascicule intitulé Mesure du codage par l'indice MRC, MEQ, juin 1984, appendice D du document l'Education populaire a travers la vie associative, I, l'Outil d'analyse, MEQ, avril 1983. Sauf mention contraire, c'est à ce dernier document que renvoient les indications de page contenues aux notes 3, 7, 17 et 20 ci-dessous.

Une mesure de rendement du codage
en analyse de contenu : l’indice MRC

TABLE DES MATIÈRES

INTRODUCTION [1]

A - NOTIONS PRÉLIMINAIRES [2]

La notion d'information [2]

L'entropie d'une variable [2]

Le canal sans bruit [3]

B - LA MESURE [6]

La mesure du rendement d'un codage [6]

L'indice MRC [9]

NOTES ET RÉFÉRENCES [11]

APPENDICES [16]

A. Emploi des indices Sk et S [16]

B. Calcul d'un corpus sur un arbre logique à l'aide des indices C, Sk et S [19]

LISTE DES TABLEAUX

Tableau 1. Exemple de l'emploi de l'indice Sk pour calculer un corpus sur un fichier de 29 variables (97 cas) [17]

Tableau 2. Exemple de l'emploi de l'indice S de mesure du rendement d'un codage sur un fichier de 29 variables (97 cas) [18]

LISTE DES FIGURES

Figure 1. Valeur des indices C, Sk et S extraits du graphe de la dimension 3 pour les trois variables de la dimension sur un échantillon de 97 cas [20]

Figure 2. Valeur des indices C, Sk et S extraits du graphe de la dimension 1 (19 variables) pour les quatre variables de l'extrait (échantillon de 97 cas) [20]

[1]

Introduction

La méthode d'analyse de contenu ici adoptée consiste à disposer le thésaurus ou dictionnaire des concepts ou des termes décrivant les catégories en arbre logique, quantifiant le tout au moyen de graphes. Or, on peut déterminer jusqu'à un certain point la variabilité, c'est-à-dire ici la contrainte statistique affectant les données [1], du codage ainsi obtenu, en utilisant une propriété de la méthode, savoir le degré de profondeur n des graphes qui servent à coder les données.

La notion désigne en effet le nombre de fois où, le long du graphe, une étape binaire oui/non est franchie sur l'arbre dichotomique P(E) = 2 ^|E| de l'arbre logique servant de définition classificatoire des données.

Ce que la théorie de l'information interprète, pour sa part, en termes de relais et de leur nombre d'états possibles [2].

Il suffit donc de rapporter cette propriété à la théorie de l’information de Shannon et Weaver [3].

[2]

Cette mise en rapport à la théorie de l'information s'effectue depuis trois notions, celles d'information, d'entropie d'une variable et de canal sans bruit. Et le résultat de l'opération peut être construit à la façon d'un indice, appelé en l'occurrence l'indice MRC de mesure du rendement d'un codage.

A - NOTIONS PRÉLIMINAIRES

La notion d'information

Soit un nombre Q trouvé au codage, déjà exprimé par méthode en termes de probabilités P(X) d'un trajet sur un graphe [4].

Ce nombre est le produit d'un certain rendement du codage, puisqu'en choisissant d'organiser les catégories, classes où se répartissent les données, sous la forme d'arbres logiques, il résulte que chaque nombre obtenu, à la place n qu'il occupe dans l'arbre, représente en effet la part de croissance géométrique dans l'exponentielle P(E) = 2 ^|E| de la définition classificatoire des données [5].

Or, on sait, par ailleurs, que la part de rendement que représente le nombre peut, d'un point de vue statistique, être mesurée, depuis sa probabilité d'apparition, par la quantité d'information qu'apporte le nombre ou, pour le dire autrement, qu'apporte le réalisation de l'événement aléatoire qu'il représente [6].

Une telle quantité, écrite

I = -log_a P(X), (1)

est égale à l'incertitude de l'événement ; on l'exprime ici en bits [7].

Cette expression, peut-on dire, mesure le degré d'originalité du nombre dans la distribution des valeurs aléatoires d'une variable X dans un codage de X : elle est la façon pour la théorie de l'information d'affirmer [3] que chaque nombre particulier trouvé au codage dépend de l'ensemble d'où il provient [8]. Mais elle ne suffit pas cependant I nous renseigner sur le rendement du codage, puisque, sous ce dernier terme, on n'y mesure toujours qu'un travail, sans connaître en effet le biais ou erreur systématique auquel ce travail donne lieu.

Or, sans le fournir expressément, la mesure possède néanmoins deux propriétés qui conduisent à établir ce dernier renseignement :

1) elle est indépendante des valeurs absolues enregistrées au codage ;

2) elle s'applique â chacun des nombres qu'on y trouverait ou, plus généralement, à chaque résultat de l'expérience, autant de fois qu'on voudra la répéter.

À ce dernier titre, on peut donc s'en servir pour apprécier l'expérience elle-même [9]. C'est l'opération que réalise la notion d'entropie d'une variable.

L'entropie d'une variable

Dans la formule de l'entropie établie par Shannon [10], l'entropie H(X) d'une variable aléatoire peut mesurer, a-t-on en effet déjà démontré, l'incertitude moyenne attachée à une variable dont on connaît la distribution [11]. On peut aussi dire qu'elle mesure la quantité d'information moyenne de X sur elle-même [12], et pour autant, le degré d'indépendance de X. La contrainte statistique, peut-on alors noter, se définit comme une sorte d'information préalable qui serait connue du codeur, plus précisément comme la quantité d'information nécessaire pour classifier une donnée dans l'hypothèse que le codeur connaît la distribution, c'est-à-dire une fois le codage réalisé. Cette interprétation vient de ce que l'entropie est une valeur attendue [13].

Ajoutons qu'entropie et indépendance statistique sont de même sens, qu'indépendance et désordre sont synonymes. Ainsi, par exemple, dans la technique de l'analyse d'entropie de Darcy et Aigner, plus est élevée la [4] mesure du désordre d'une distribution ou l'entropie, moins est grande la quantité de connaissances sur un cas moyen qu'apporte la distribution : les cas se répartissent à peu près également entre les catégories. Et plus est grande, en conséquence, la quantité de choix dévolue au codeur [14].

Entropie et quantité de choix sont donc de même sens ; et, par suite, l'une des interprétations de l'entropie est d'être la mesure, en bits, du nombre moyen d'opérations rendu nécessaire pour avoir classifié une donnée, c'est-à-dire la mesure du nombre moyen de questions binaires oui/non auxquelles on aura chaque fois trouvé réponse [15]. Nous voici arrivés au schème de décision d'un codeur.

Appliquée à l'analyse de contenu, par exemple, la formule de l'entropie d'une variable X

H(X) = ∑ Pi log _Pi (2)

peut, en effet, s'employer ici à bon escient pour désigner l'incertitude moyenne attachée à la classification d'une unité de sens au sein d'un système de catégories. N'y aurait-il, par exemple, qu'une seule catégorie où classer le cas moyen, l'incertitude (donc la quantité de choix) est minimale. À l'inverse, la contrainte est maximale : le codeur est dans l'obligation de connaître l'existence de la catégorie qui définit le cas moyen, il ne peut pas la deviner. C'est alors l'information préalable qui se trouve à atteindre, à 1'encontre de l'entropie, un maximum.

La notion d'entropie d'une variable nous fournit de la sorte un point de départ pour évaluer le rendement d'un codage, c'est-à-dire de l'action qui consiste à s'approprier le discours d'un sujet à travers un système de catégories en sélectionnant des unités de sens. Il suffit, corollairement, de définir cette action comme un canal sans bruit.

[5]

Le canal sans bruit

La notion de canal sans bruit désigne ce qui se produit dans la communication lorsqu'il y a connexion directe entre le destinataire du message et la source ou, ici, entre le codeur et le corpus [16].

À cette situation correspond en effet la situation réelle de n'importe quel processus de codage en analyse de contenu : par définition de méthode, l'information émise par le sujet se confond a tout coup, pour l'analyste, avec celle reçue du codeur ou émise par lui [17]. C'est la situation à l'origine de l'idée d'objectivité : le codeur idéal (idéal de l'objectivité parfaite) est celui qui, sans information préalable, c'est-à-dire a la limite sans disposer de catégories, pourrait littéralement en inventer les significations exactes en parcourant le corpus.

On remarque donc à propos de la méthode qu'au départ, celle-ci détermine de façon univoque à l'avantage du codeur le problème de comprendre avec une relative justesse un système de catégories. En définissant l'action de coder comme une communication où il n'y a pas de bruit, on suppose qu'en chaque cas de classement d'une unité de sens, le codeur a chaque fois bien compris ce que doit mesurer la quantité de choix, c'est-à-dire qu'il a bien compris le sens de la catégorie.

Mais, à cette définition des conditions réelles d'exercice de l'analyse de contenu, deux observations doivent aussitôt être ajoutées. La première est que, selon nos conventions, le codeur reproduit le symbole placé a l'entrée, une unité de sens, en l'espèce d'un produit de sortie, une unité d'enregistrement, chaque fois sans coup férir. Elle revient a admettre un codeur compétent, au sens ou la linguistique parle d'un locuteur compétent, c'est-à-dire d'une intériorisation des règles sans rapport avec la performance. Or, cette observation suppose, entre autres, du point de vue de la théorie de l'information, que le codeur, en somme, est toujours efficace a 100%, selon la définition d'un codage optimum [18].

[6]

Cependant, étant actif — et voilà l'observation contraire — le codeur réel, performant, est pour autant biaisé, redondant, donc loin d'employer ce codage optimum qu'on voudrait efficace a 100%. Par exemple, les attributs les plus probables sur un arbre n'ont pas nécessairement le mot-code le plus court, comme on s'en rendrait aisément compte sur les graphes [19]. Or, c'est cette activité biaisée, redondante, que l'on se propose de mesurer. On le fera donc en croisant les deux observations.

B - LA MESURE

La mesure du rendement d'un codage

Pour obtenir le rendement de la grille au codage, nous conviendrons donc de rapporter la performance d'un codeur a deux quantités, l'efficacité réelle C du codage ou la quantité moyenne d'information qui doit avoir été examinée lorsqu'une unité de sens est classifiée, et l'entropie H. La première est calculée selon la formule de Bettman, d'après l'indice C de la grille, page 41 ; la seconde s'obtient par la formule déjà rappelée de Shannon et désigne la quantité de choix dévolue au codeur pour faire cet examen. Le rapport entre la quantité d'information traitée C et la quantité de choix H dévolue au codeur pour ce faire nous donnera ainsi la mesure du rendement recherchée, d'après le principe que plus la différence est grande entre les deux, plus il y a place pour la subjectivité.

Soit, par exemple, a la figure 2, page 20, les deux indicateurs Q301 et 1302 de niveau 3 de la grille, indicateurs de la variable de niveau 2 (Q201) [20]. La figure attribue à ces indicateurs une probabilité respective d'être trouvés dans le matériel de .52 et .48. L'entropie H de la variable, calculée par la formule de Shannon ci-dessus, est de 1.046 bits. Cette valeur représente, comme on l'a vu page 4, le nombre moyen de questions binaires oui/non auxquelles il a chaque fois fallu trouver réponse pour classifier une unité de sens dans l'une ou l'autre des deux catégories de la variable de niveau 2.

[7]

D'autre part, l'efficacité réelle du codage C est égale à 1.234 bits. Ce nombre provient de la formule de Bettman de l'efficacité de la transmission de l'information sur un graphe en forme d'arbre de décision ou d'arbre logique [21] ; il apparaît de la façon suivante :

= la probabilité de trouver un indicateur dans le matériel ou la probabilité P(X) du nombre Q trouvé au codage ;

= la longueur du trajet en nombre d'arcs nécessaires pour l'obtenir ;

le symbole C désigne alors la sommation des produits ci-dessus pour deux indicateurs de même niveau [22].

Ainsi, la quantité C de notre exemple de niveau 3 est obtenue en additionnant les produits de la probabilité de chaque trajet possible partant du sommet 0, identifié par Q001, pour aboutir, par jugement d'absence ou de présence d'un niveau à l'autre, aux sommets représentés par les indicateurs de la variable de niveau 2 : .85 + (.15 x .44) 2 + (.15 x .56 x .52) 3 + (.15 x .56 x .48) 3 = 1.234 bits. Ce nombre représente le trajet le plus efficace ou le nombre moyen d'attributs considérés pour en arriver S définir la donnée [23]. On dira donc que la quantité moyenne d'information qui doit être examinée pour avoir classifié une unité de sens de niveau 3 est de 1.234 bits ou que la quantité moyenne d'information produite par le codeur pour avoir classifié une donnée selon les deux indicateurs de niveau 3 est de 1.234 bits. Cette quantité est une mesure de la complexité de construction des indicateurs de niveau 3, en lπ'occurence la mesure de l'effort cognitif requis pour avoir rempli tous les trajets de ce niveau pour la variable retenue.

Considérons maintenant le rapport C - H entre l'effort cognitif et la quantité de choix dévolue au codeur pour faire cet effort. Ce rapport est de 1.234 - 1.046 = .19 bits. La limite inférieure de ce nombre est 0, atteinte lorsque C = H. On peut donc supposer qu'à mesure que le rapport se rapproche ce 0, ou que C tend vers H, il y aura au moins un cas, lorsque H est maximum, où la contrainte statistique minimale, qu'on peut exprimer [8] par le symbole H_max, tendra à coïncider avec le codage le plus économique C_min ou qu'il y aura, en d'autres termes, tendance à la conformité parfaite entre l'esprit des catégories et celui du codeur [24]. Une autre façon d'avancer la même chose est de dire que, si l'information préalable H nécessaire au codeur pour classifier la donnée, selon la définition de l'entropie, ci-dessus page 4, est égale à la quantité d'information C nécessitée pour la construire, alors disparaît la part d'initiative ou ce qu'il y a de spécifique à l'activité du codeur, la subjectivité, selon l'expression courante, du codage. On aura réussi, comme en codage automatique, à ce que l'effort cognitif soit minimum pour une entropie maximum.

D'autre part, la différence entre les deux quantités peut s'accroître. Elle le fait vers une limite C_max - H_min égale à 1, cas limite où, l'entropie étant une fonction convexe, un codeur binaire est source d'entropie unité [25]. On doit donc remarquer à l'inverse que, plus le nombre, symbolisé par S, obtenu de la différence C - H se rapprochera de cette limite supérieure, plus la quantité S de biais au codage ou de subjectivité augmentera. Nous dirons donc que la quantité S de biais au codage ou de subjectivité va varier de 0 à 1 pour un codeur binaire, quel que soit le niveau choisi pour l'observer, le nombre de niveaux, sommets non terminaux de l'arbre logique, étant, par ailleurs [26], égal à n-1.

En divisant donc cette différence par le nombre n de jugements posés selon le schème d'un codeur binaire, il en résulte que la différence C - H/n, i.e. la différence entre l'effort cognitif imposé au codeur et la quantité de choix qu'il exprime au niveau choisi, nous donne la mesure de rendement qu'on cherchait, mesure du rendement de la grille au codage. Une telle mesure peut se représenter par la formule du biais S au codage d'une variable X de niveau n-1, soit :

[9]

On trouve sur le champ à utiliser la formule (3) : elle permet, en effet, d'attribuer un poids à une variable de la grille, le terme variable étant ici défini au sens informatique de donnée d'entrée. On pourra donc, en particulier, pondérer toute donnée d'entrée de niveau n-1 (la donnée de niveau n étant l'indicateur.)

De même, autre façon de le dire, sera-t-il possible de pondérer les indicateurs employés pour construire les variables, au sens sociologique du terme, de niveau n-1 sur chaque dimension du cadre conceptuel.

L'indice MRC

On peut donc penser employer la mesure pour fabriquer un indice de rendement soit qu'on réunisse plusieurs mesures, choisissant les variables selon les besoins de la cause, ou n'en retenant qu'une seule. C'est ce procédé que nous avons appelé l'indice MRC de Mesure du Rendement d'un Codage, en anglais CPI (Coding Proficiency Index).

Selon le seuil et à l'échelle qu'on veut, pensons-nous, il est ainsi loisible d'obtenir une idée du rendement de la grille de codage en rapport avec les objectifs qu'on poursuit : sélectionner ou former des codeurs, analyser des données, utiliser des résultats, réviser le système de catégories, affiner ou enrichir le thésaurus, corriger le protocole d'accès au fichier, mettre à jour la base de connaissances, procéder à des études de réplication, etc. On trouvera deux façons de faire, utilisables à l'une ou l'autre de ces fins, aux tableaux 1 et 2 de l'appendice A page 17. C'est en l'exerçant à ces divers emplois, peut-on penser au reste, qu'on en arrivera petit à petit à valider l'indice, tâche hors de portée du présent travail.

Sur cette base, l'indice MRC établi ici pour l'étude des organismes volontaires d'éducation populaire répondrait, peut-on suggérer pour clore cet exposé, à deux fonctions de méthode. La première apparaît surtout importante dans les administrations, lorsqu'on doit utiliser l'analyse de [10] contenu, outil de recherche, comme outil de gestion. La seconde s'applique plus directement à la recherche opérationnelle.

Au gestionnaire d'abord, la méthode de l'indice MRC peut proposer une solution de rechange à l'inapplicabilité du coefficient de fidélité - mesure basée sur le contrôle d'un codeur par un ou plusieurs autres [27] - dans le cas de l'analyse à codeur unique. Sans doute, peut-on à ce moment multiplier les codeurs soit, à l'inverse, se priver de disposer de données cumulatives faute de les rendre comparables. La pratique est cependant coûteuse à gérer les deux fois, sans pour autant résoudre la difficulté. Or, il s'agit là d'une difficulté constitutive de la méthode. Mais c'est aussi une difficulté appelée, peut-on penser, à prendre graduellement du relief par un autre côté, à mesure que se diffusent dans les organisations, y compris dans l'administration publique, les pratiques de l'analyse documentaire, de l'analyse de contenu, de l'information de gestion ou des autres formes de travail, telle la bureautique, toutes appuyées, pratiques et formes, sur l'informatisation des connaissances.

De procurer un moyen économique de contourner une difficulté constitutive de l'analyse de contenu représente donc, dans ce contexte, un premier bénéfice, pour lequel il était avantageux, du point de vue du chercheur, de tenter de mettre au point la méthode ici développée.

L'autre avantage lui vient de sa généralité. La méthode de l'indice MRC propose en effet une mesure du rendement du codage qui est incorporée (built-in) à la grille qu'on construit. De ce fait, la technique de mesure ici obtenue, l'équation (3) en l'occurrence, est généralisable à tout système de catégories à codeur humain. La seule condition est que le système puisse utiliser la technique ici développée de construction de la grille (une application du canal binaire symétrique) ou qu'à défaut, cette technique s'applique à un codage déjà réalisé autrement. Cela rejoint, au départ, un grand nombre de situations pratiques, toutes celles, entre autres, faisant appel à des données de type qualitatif : attitudes, croyances, opinions, valeurs, idéologies, etc. La méthode de l'indice MRC renvoie donc ici avec intérêt, peut-on penser, à la recherche opérationnelle, en analyse de produit et en évaluation de programme, notamment.

[11]

NOTES ET REFERENCES

[12]
[13]
[14]
[15]
[16]

APPENDICES

[16]

Appendice A.

Emploi des indices Sk et S

[17]

Tableau 1

Moyenne arithmétique de l'indice Sk sur un fichier de 29 variables où n = le niveau des sommets du graphe et Q = la dimension du cadre conceptuel, pour un échantillon de 97 cas.

En rapportant à l'ensemble des données de niveau 1, par exemple, la moyenne .662 de l'indice, on peut répartir en regard de celle-ci une variable quelconque de la dimension 1 au niveau 1 pour chacun des cas de l'échantillon, et ainsi de suite. De la même façon, l'indice Sk va donc servir â construire des typologies depuis la médiane des valeurs Sk.

Que ce soit à des fins de recherche ou à des fins de gestion, il sert alors, dans les deux cas, à pondérer des raisonnements ou des résultats

[18]

Tableau 2

Moyenne arithmétique de l'indice S sur un fichier de 29 variables où n = le niveau des sommets du graphe et Q = la dimension du cadre conceptuel, pour un échantillon de 97 cas.

La moyenne des lignes indique le rendement de la grille au codage par dimension du cadre conceptuel, l'ordre d’"objectivité", par exemple, Q₃ > Q₁ > Q₂. La deuxième dimension du cadre conceptuel Q₂ est donc ici celle où l'influence de la performance du codeur est la plus visible. On peut se servir des lignes pour comparer entre elles des dimensions ou, encore, des variables à l'intérieur de celles-ci ou entre ces dernières. Le programme d'exploitation du modèle utilise en fait l'indice S comme facteur de pondération pour l'analyse multivariée en sociologie ou l'analyse morphologique en évaluation de programme.

La moyenne des colonnes, de son côté, sert de repère lorsqu'on veut faire une lecture horizontale de la grille d'analyse pour y sélectionner ou y comparer des variables ou pour y pondérer un résultat. Les colonnes expriment la part prise, â chaque niveau de construction des données, par la performance du codeur ou la "subjectivité" du codage. L'intérêt d'une telle information varie suivant l'intérêt exprimé par l'analyse. Ainsi, dans l'exemple ci-dessus, le codeur risque de "se tromper" deux fois moins dans sa compréhension des catégories si l'analyse s'en tient â lire les variables de niveau 0. À l'inverse, la variabilité des résultats est plus grande aux niveaux 2 et 3.

Le programme d'exploitation du modèle inclut aussi ce raisonnement.

[19]

Appendice B.

Calcul d'un corpus sur un arbre logique
à l'aide des indices C, Sk et S

[20]

Schéma de la dimension 3

Q108

Q215

Q216

C

1.

1.49

1.48

Sk

1.

.749

.741

S

.001

.25

.47

Schéma de la dimension 1

* Données illisibles

[1] Par variabilité, nous entendons la contrainte statistique au sens de la démonstration de Garner : à la validité correspond la contrainte externe et, à la fiabilité, la contrainte interne. Voir : Garner, Wendell, R., Uncertainty and Structure as Psychological Concepts, Robert E. Krieger Publishing Company, Huntingdon, New-York, 1975, p. 171.

[2] Shannon, Claude E. et Weaver, Warren. Théorie mathématique de la communication, Retz - C.E.P.L., Paris, 1975, p.66.

[3] En faisant ce rapport, doit-on noter, la notion de degré de profondeur ou niveau n des graphes proviendra de la nécessité de rendre compte de l'ensemble des probabilités de transition dans un processus de codage conçu comme un processus stochastique (Shannon, loc. cit. 76), du fait qu'on organise le thésaurus en arbre logique. Elle s'exprime en bits (comme on le verra plus loin), et répond au fait qu'en organisant le thésaurus de cette façon, on utilise comme principe de construction de la grille la quantité d'information, i.e. log 2^e (E entier), obtenue dans le cas des signaux alternatifs d'un code binaire. Chaque case de la grille y compile en effet, par définition, le résultat de E alternatives symétriques, successives et équiprobables.

Il s'ensuit de cette façon de procéder, entre autres, que la capacité du canal reste constante à mesure qu'on descend dans l'arbre dichotomique ou qu'on passe du plus général au moins général, d'un attribut moins difficile â définir à un autre qui l'est plus ou, en fait, d'une variable à un indicateur, comme on le souligne, par exemple, à la note 15 du chapitre 2, p. 42. Du point de vue de la théorie de l'information, il s'agit alors d'une application d'un théorème â l'effet que l'information traitée par un canal binaire symétrique est une fonction inverse de la fonction entropie du message à l'entrée. Voir Ash, Robert, Information Theory, John Wiley and Sons, New-York, 1967, p. 54,11.

[4] Chapitre 2, p. 41. Ce nombre Q peut s'exprimer sous la forme P(X = m_i) = P_i. L'expression dénote que la variable aléatoire X à laquelle se rapporte le nombre trouvé au codage prend une valeur numérique dans l'ensemble d'événements notés m_i, ..., m_N de probabilité respective P_i, ..., pn (P_i = 1) pour x = (x₁, x₂, ..., x₂₉), variables du cadre d'analyse. Symbolisme d'après Ash, loc. cit. p. 5 et Roubine, E. Théorie de l'information, basson et Cie, Paris 1970, pp. 7, 11, 49.

[5] La croissance arithmétique est la valeur de n. Voir Marc Barbut, Mathématiques des sciences humaines, PUF, 1969, t. 2, p. 76.

[6] Par exemple, outre Garner à l'endroit cité, voir : Attneave, Fred, Applications of Information Theory to Psychology, Holt, Rinehart and Winston, New-York et Toronto, 1967, Quastler, Henry, Information Theory in Psychology, The Free Press, Glencoe, Illinois, 1955.

[7] Le bit est l'information recueillie lorsqu'on spécifie lequel des deux événements de l'alternative systématique est réalisé dans un schéma d'expérience formé de deux événements équiprobables (Roubine, loc. cit, p. 17 ; Shannon, loc. cit., p. 69 ; et Guiasu, Silviu et Theodorescu, Radu, Incertitude et information, Les Presses de l'Université Laval, Québec, 1971). Une information en bit est obtenue ici au terme de chaque trajet sur le graphe, puisque la formule P(E) = 2 '£' décrit un tel schéma (la base a du logarithme est égale à 2) : l'incertitude unité dans le cas d'un codeur binaire a en effet une probabilité de .5.

On notera en passant que l'incertitude zéro répond, à l'inverse, à la convention du modèle d'analyse à l'effet qu'un terme en son maximum d'extension est un ensemble vide. Voir au chapitre 2, p. 42, la note 15 et p. 43, la note 16. La raison en est qu'on s'appuie sur le principe d'entropie maximum (Roubine, Guiasu) comme principe de la répartition la plus générale des données.

[8] Quastler, loc. cit, p. 84.

[9] Voir, par exemple, Ash, loc. cit., Roubine, loc. cit., ou Miller, George A., What is Information Measurement ?, American Psycholoaist, 8 (1963), p. 3-11.

[10] Shannon, loc. cit., p. 89 ; Quastler, loc. cit., p. 149.

[11] Quastler, id., p. 149.

[12] Quastler, ibid., p. 84 ; Ash, id., p. 15 ; Roubine, id., p. 16 ; Guiasu, loc. cit., p. 94.

[13] Voir Ash, loc. cit., p. 13 ; Roubine, loc. cit., p. 17 ; et Mathai, A.M. et Rathie, P.N., Basic Concepts in Information Theory and Statistics, John Wiley and Sons, New-York et Toronto, 1975, p. 25. Dans le schème de décision qui minimise la probabilité d'erreur (théorie de l'observateur idéal), en effet, plus est grande la contrainte distributionnelle, i.e. la part de connaissances sur le statut d'un cas moyen attribuable au fait de connaître la distribution, plus serait grande la quantité d'information préalable sur un cas moyen que posséderait un codeur (Ash, loc. cit., p. 61).

[14] Darcy, R. et Aigner H, "Entropy Analysis Technique", Journal of Marketing Research, August 1977, 416-419 ; "The Uses of Entropy in the Multivariate Analysis of Categorical Variables", American Journal of Political Science, vol. 24, no 1, February 1980, 155-174.

[15] Ash, loc. cit., p. 13, 40 ; Quastler, loc. cit., p. 84.

[16] Pour la définition d'un canal sans bruit, voir Ash, loc. cit., Roubine, loc. cit.

[17] Techniquement, l'application suppose que ce que peut produire un codage en analyse de contenu est assimilable à la quantité d'information mutuelle entre deux variables aléatoires, la source X et le codeur Y, ce qu'on traduit par l'expression I(X,Y) = I(Y,X). Or, la relation qui sert à coder par bijection les données (voir, par exemple, la note 12, p.40, du chapitre 2) suppose déjà une liaison stricte Y = f(X). Dans l'expérience composée d'équation H(Y) - Hx(Y) = I(Y,X), cela revient à faire Hx(Y) = 0, situation où la connaissance de X sur Y est inutile. Ainsi, par exemple, Giasu, loc. cit., p. 144. Il y a donc connexion directe entre le codeur et la source, par hypothèse, dès qu'il y a connaissance du message émis (système sans codage (Guiasu, loc. cit., p. 141)). En analyse de contenu, on peut bien chicaner l'analyste, on est obligé de croire le codeur. D'après Quastler, loc. cit., p. 378 ; Ash, loc. cit., p. 50 ; Roubine loc. cit., p. 31. Le modèle mathématique d'un système de transmission de l'information sans codage est donné dans Giasu, loc. cit., p. 147-148.

[18] Un codage sans coup férir, i.e. une transmission sans perte d'information (lossless channel), est en effet une propriété du canal sans bruit (Ash, op.cit., 50, 52). Il nous semble qu'on en peut conclure, entre autres, à l'absence possible de toute redondance et donc, ici, à un coût de codage minimum pour un code binaire efficace à 100%. D'après Ash, loc. cit., p. 28 ; Roubine, loc. cit., p. 42, 51.

[19] Voir par exemple l'appendice E. Ce deuxième corollaire est une application du théorème de Shannon sur le codage sans bruit (noiseless coding). On assume que l'égalité coût-entropie est une définition de l'efficacité à 100% du code, i.e. qu'elle dénote l'existence du code binaire le plus économique, et on pose que cette condition équivaut à la conformité entre l'esprit des catégories et celui du codeur, cas idéal de l'objectivité parfaite. Voir Ash, loc.cit., 37 ; Mathai, loc. cit., 25 ; Roubine 20.

L'hypothèse rencontre la réalité en ce qu'un codage efficace a 100% serait un codage absolument optimal. Or, on ne peut en général construire de code absolument optimal pour l'ensemble d'événements en note 4 ci-dessus, d'après Ash, p. 38, puisque, par exemple, les attributs les plus probables sur un arbre n'ont pas nécessairement le mot-code le plus court (cf. Ash, p. 41). Il s'ensuit donc que le coût de codage est dans la réalité toujours supérieur à l'entropie, le codage en quelque sorte toujours redondant.

[20] Ces deux variables sont appelées indicateurs parce que c'est par elles qu'est trouvée au dépouillement du corpus la valeur de la variable immédiatement supérieure Q201 ; celle-ci devient à son tour l'un des indicateurs de la variable Q101, et ainsi de suite : les variables sont hiérarchisées selon une loi P(E) = 2 ^|E| où, ici, E = 2. Voir chapitre 2, note 15. Seules les variables de chaque dernier niveau d'une grille, doit-on noter, au nombre, dans l'exemple, de 32, sont cependant les indicateurs servant pratiquement à déchiffrer le corpus.

[21] Voir James R. Bettman, An Information Processing Theory of Consumer Choice, Addison-Wesley 1979, p. 254. Le trajet E(X) le plus efficace de Bettman, page 255, correspond au calcul du code le plus économique où ∑≥ ∑ p_in-_i = H.

Soit n = le nombre de lettres dans un mot-code. La moyenne pour un mot code est la somme du nombre de lettres des mots-codes qui l'ont précédé multipliés chacun par sa probabilité d'apparition (Roubine, loc. cit., p. 20) ou : = p_in_i.

Selon le théorème de Shannon, il existe un codage où est aussi voisine que l'on veut de sa borne inférieure, et on sait que celle-ci, dans le cas d'un codage binaire, est égale à l'entropie ou = H. (D'après Mathai, op. cit., p. 25 ; Roubine op. cit., p. 20).

On aura donc ici l'existence du code le plus économique ou "l'objectivité parfaite" si la longueur moyenne du mot-code () est égale à l'entropie ; et présence, à l'inverse, de la subjectivité, plus cette valeur s'en éloigne, selon l'application C ≥ H du théorème de Shannon. Autrement dit, s'il existe un codage binaire minimum, H est la longueur moyenne des mots-code. Pour la fonction coût C ≥ H, voir Mathai, loc. cit., p. 25.

[22] Le symbole C(X) ici utilisé est équivalent au E(X) de Bettman, op. cit., p. 254. Ajoutons qu'il faut distinguer la notion de capacité C d'un canal et l'application faite ici. L'existence du code le plus économique C ≥ H, selon la fonction coût soulignée par Mathai, loc. cit., p. 25, signifie en effet que la longueur moyenne du mot-code ou ∑ p_in_i est égale à l'entropie dans le cas d'un codage binaire. Voir, par exemple, Roubine, loc. cit., p. 41 et 55. La valeur de la capacité C d'un canal ou de la plus grande quantité moyenne d'information transmise par le canal, écrite par exemple C = max (H(X) - H(X|Y)) dans la définition de Guiasu, loc. cit., p. 146, est, de son côté, égale à l'entropie, mais dans le cas limite où H(X|Y) = 0. Voir par exemple, Giasu, loc. cit., p. 141, ou la note 17 ci-dessus.

[23] Voir la note 21 ci-dessus.

[24] En conformité avec le cas de l'égalité dans l'application du théorème de Shannon en note 19 ci-dessus.

[25] En remplaçant C_max par sa valeur H(X) - H(X|Y), la limite C_max - H_min devient égale 1 H(X) - H(X | Y) – H_min Mais, comme, pour un canal sans bruit, H(X|Y) = 0 (voir note 17), l'expression devient H - H_min. Vu C ≥ H (voir note 21), la différence est positive et s'accroît, selon H_max > H_min, jusqu'à un maximum de 1, cas limite où, l'entropie étant une fonction convexe, un codeur binaire est source d'entropie unité. Symbolisme d'après Giasu, op. cit., p. 144 et Roubine, op. cit., p.18.

[26] Du fait que seul le dernier niveau d'une grille sert ici à dépouiller directement le corpus, cf. note 20.

[27] Pour une illustration de la méthode voir : Cartwright, Dorwin.P, "L'analyse du matériel qualitatif", in Festinger, Léon, et Katz, Daniel, op. cit. ; Daval , Roger, op. cit. ; et Craig, Robert T. "Generalization of Scott's Index of Intercoder Agreement", Public Opinion Quaterly, Summer 1981, p. 260-264.