Numéro 12 - Février 2006
Editorial
Editorial
par Elisabeth Féghali
Croyances & superstitions
Le Cycle des douze jours
par Elisabeth Féghali
Littérature comparée
Etude comparée des oeuvres de J.R.R. Tolkien et C.S. Lewis - Partie I
par Shimrod
Etude comparée des oeuvres de J.R.R. Tolkien et C.S. Lewis - Partie II
par Shimrod
Etats latins d'Orient
La Prise d'Antioche 1/3
par Maxime GOEPP
par Benjamin Saintamon
Linguistique
Introduction à la lexicométrie
par Christian Féghali
Droit médiéval
La lettre de rémission
par Jean-Pierre PHELOUZAT
La terre, la société et le droit
par Jean-Pierre PHELOUZAT
Economie
L'or blanc du Saulnois
par Olivier Petit
Empire Byzantin
La chute de l'Empire byzantin
par Paul Matagne
Croyances & superstitions
L'Ars Moriendi
par Aimeric Vacher
Architecture religieuse
Le Nefin des croisés au Liban (Anf-el-Hajar)
par Elisabeth Féghali
Notre-Dame-des-Vents (Saydet-er-Rih)
par Elisabeth Féghali
Introduction à la lexicométrie

Introduction à la lexicométrie
en vue de l'utilisation du logiciel de
"Traitement et Analyse de Données Linguistiques" LiLex v.5.03
(première partie)

Préambule

      Cet article est motivé par la demande très fréquente de résultats de lexicométrie des œuvres manuscrites en français médiéval sur le site de Citadelle. Un logiciel appelé LiLex v5.03 existe et est utilisable sur les machines de type PC et compatibles pour ce faire. Il peut être mis en œuvre non seulement avec toute langue à base de caractères de l’alphabet latin mais aussi avec les caractères de l’alphabet arabe ou la forme alphabétique du chinois utilisable sur ces ordinateurs. Il ne nécessite que un ou plusieurs fichiers de caractères avec un fichier de paramétrage dirigeant le dépouillement du (des) fichier(s) en question. Un même fichier peut contenir plusieurs segments textuels qui seront traités individuellement et dont le lexique unifié et individuel sera édité ainsi que d’autres résultats statistiques sur les formes lexicales y contenues.

      La première version de ce logiciel a été écrite pour les besoins d’enquêtes nationales dans les laboratoires propres du C.N.R.S. ou pour les besoins de prospective internationale et de veille technologique et scientifique de la Cellule d’Évaluation et de Prospective (CEP) de la Direction des Relations et de la Coopération Internationale DRCI du C.N.R.S. entre mai 1983 et fin 1983 par Christian Féghali.

      Un exemple des différentes sorties sera donné sur Citadelle après avoir introduit de façon générale la lexicométrie

 

Les domaines d’application de la lexicométrie

      Ils sont nombreux, depuis l’étude des œuvres classiques ou médiévales, l’aide à la constitution de dictionnaires, les études d’occurrences avant ou après lemmatisation, l’analyse des discours politiques ou d’enquêtes contenant des questions ouvertes ou d’enquêtes non directives. La comparaison des œuvres d’un même auteur ou de plusieurs auteurs, les essais d’attribution ou de rapprochement d’œuvres d’un auteur inconnu à un ensemble d’auteurs connus et bien d’autres applications aussi.

      Dans le cadre de Citadelle il est nécessaire de faire une petite mise au point dès le départ : le traitement d’une œuvre manuscrite ne vaut pas plus que la façon dont cette œuvre a été transcrite. Avons-nous a faire à une transcription stricte comme celles dites ‘diplomatiques’ ou, alors, certaines formes ou caractères ont été interprétés par le transcripteur en expansion ou même rajoutées car implicitement nécessaires pour des phrases bien formées. Et, bien entendu, il ne sera pas possible d’obtenir mieux que ce qui aura été fourni au départ comme texte. De même l’utilisateur a le choix de la conversion en haut ou en bas de casse ou laisser le texte tel quel avec d’autres possibilités de paramétrages dont il ne sert à rien de détailler le contenu pour le moment.

      Enfin, étant obligés de faire court nous prendrons parfois certains courts-circuits qui pourraient être considérés, par d’aucuns, comme des abus ; mais pour débobiner une pelote il faut bien attraper le bout du fil, quitte à en couper un morceau pour constituer ce premier bout par où commencer et ainsi avancer dans le travail.

 

Lexicologie et lexicométrie

      Débroussailler le terrain pour décrire ce qu’est, ou ce que pourrait être, la lexicologie ne peut se faire sans situer son domaine dans l’ensemble qui la contient et poser quelques définitions. Ainsi il est assez courant de situer la lexicologie dans l’ensemble des études de sa science mère, la linguistique, qui couvre de multiples domaines en interactions systématiques. L’énumération de quelques uns de ces domaines, qui sont autant de disciplines à part entière, permet de prendre conscience de l’étendue dont il est question. Citons rapidement : la langue parlée avec les sons, la phonologie et la phonétique ; la langue écrite avec l’alphabet, pour celles qui sont à base alphabétique, les mots et le vocabulaire ; la syntaxe, la grammaire et la lexicologie ; la sémiotique et la sémiologie, la sémantique et le sens ; la cryptologie et la symbolique…

      Le spectre des domaines couverts par la linguistique est donc très vaste et peut être considéré comme allant depuis les gestes, les attitudes et les comportements individuels qui peuvent être considérés comme des formes d’expressions langagières, jusqu’aux mathématiques ou la logique que certains ne considèrent que comme des langages spécialisés, libre à chacun de mettre des frontières là où il l’entend ou d’y inclure certains domaines en en excluant d’autres. Quand une maison est assez grande pour inclure l’humanité toute entière il est évident que certains voudront se réserver dans cette maison, des domaines, des chambres et des pièces ou des primautés d’occupations à leur usage exclusif ; laissez les vivre, ils ne font pas plus que des ronds dans l’eau d’un grand fleuve avec un bâton et, admirez plutôt l’œuvre et le paysage que de chercher à comparer ou critiquer là où il y a de la place pour tous.

      Les supports des phénomènes langagiers sont tout aussi variés, ils vont des images à l’écriture en passant par les sons et la chimie (les phéromones). Mais aussi la linguistique ne concerne pas seulement l’humanité mais aussi le règne animal avec les études sur les communications de certains animaux entre eux, mammifères ou insectes et des savants n’hésitent pas à parler de langage entre plantes aussi : certaines variétés d’acacias transmettent à leur environnement, par vecteurs chimiques, le fait qu’ils sont attaqués par des animaux qui en rongent l’écorce provoquant ainsi alentour, chez les arbres de la même variété, la sécrétion de certaines molécules chimiques qui rend leur écorce insupportable à l’ingestion de ces prédateurs.

      Aussi, pour restreindre un domaine opérationnel dans le cadre de Citadelle, nous nous limiterons à considérer la lexicologie sous l’un de ses aspects principaux, facilement accessible à l’aide des ordinateurs, celui de la mesure en lexicologie, la lexicométrie. Nous ne nous pencherons donc pas sur la parole articulée et les sons mais nous limiterons strictement à l’écriture de type alphabétique. Nous allons donc poser quelques définitions simples et générales que nous pensons accessibles à tout public qui fréquenterait ‘Citadelle’ et ayant la curiosité du français médiéval.

 

Un alphabet : Pour faire de la lexicométrie il faut en première instance un alphabet. Il faut considérer qu’un alphabet de notre époque est constitué de trois ensembles.

a) Le premier est un ensemble d’éléments graphiques isolables individuellement mais qui pourraient être liés aussi, et qu’il est possible de voiser (prononcer) ; ce sont les caractères graphiques usuels servant à construire ce que l’on appelle communément les mots, soit quand ces mots sont constitués d’un seul caractère pris individuellement comme les mots ‘à’, ‘6’ ou la valeur cinq en numération latine avec le ‘v’ ; ou des constructions de séquences de caractères par concaténation de plusieurs caractères de l’alphabet avec ou sans répétition. La longueur de ces séquences de concaténations étant arbitraire ainsi que sa composition en caractères. L’alphabet courant que nous considérerons est formé de 27 caractères le dernier étant l’esperluette symbolisé par le signe ‘&’ malencontreusement appelé par beaucoup ‘et commercial’ alors que c’était un caractère à part entière de l’alphabet il n’y a guère cent ans encore. Sa position dans l’ordre de l’ensemble des caractères vient après le ‘z’, c’était, ou même c’est, dirons-nous, le dernier caractère de l’alphabet. Pour les personnes intéressées par la lexicographie du français médiéval il est même indispensable car il était utilisé très couramment.

b) Un deuxième ensemble de caractères est adjoint à ce premier et est ce que nous appelons usuellement l’ensemble des caractères de ponctuations. Ils servent à rythmer les séquences du premier ensemble de caractères (a) en longueurs plus ou moins variables.

c) Le troisième et dernier ensemble de caractères que nous introduisons est constitué d’un seul et unique caractère à statut particulier, nous l’appellerons le ‘délimiteur universel’ et qui est le caractère d’espace usuellement utilisé dans la langue écrite. Il faut noter que ce délimiteur est relativement moderne, beaucoup de textes anciens en grec ou en latin pour les alphabets correspondants n’utilisaient aucun caractère d’espace délimiteur des séquences de caractères formant ces réalisations ; parfois ce délimiteur était un caractère ressemblant à un point situé à mi hauteur des autres caractères. De même, pour qui n’a jamais admiré quelques pages de manuscrits de français médiéval qu’elle n’est pas la première surprise, choquante pour certains, de ne pas parvenir à distinguer deux mots successifs dans certaines pages. De même certaines langues comme l’arabe ne possèdent pas ce délimiteur ou n’en ont pas vraiment besoin, cette question y est résolue par la forme du caractère suivant sa position dans la séquence, définissant alors la limite de la séquence ou la non limite par sa forme graphique même. D’ailleurs pour la langue arabe la graphie de la grande majorité des caractères est variable suivant sa position en début, au milieu ou en fin de séquence. D’autres au contraire n’ont qu’une seule forme quelle que soit leur position dans la séquence.

 

L’écriture alphabétique : est la façon d’agencer des caractères alphabétiques, pour traduire/transcrire les éléments voisés d’une langue donc passer à partir de l’aspect sonore de manifestations linguistiques à des formes visuelles et imagées. L’écriture a deux fonctions celle de pouvoir fixer visuellement la parole, éminemment volatile, et donc de servir de support à l’une des formes les plus ancienne de la mémoire, mais aussi et tout autant de pouvoir être retransformée par la ‘lecture’ de la forme visuelle en parole voisée et ainsi être restituée de façon sonore aussi fidèlement que la forme voisée originale avait été fixée. C’est probablement l’une des premières transformations ‘invariantes’ (au sens mathématique) crées par l’homme moderne depuis moins de dix mille ans.

Jusqu’à plus ample informé l’alphabet attesté le plus ancien et père de tous les autres est le phénicien de Byblos dont l’énumération complète est gravée sur un sarcophage trouvé à Byblos même (le Liban actuel situé sur l’emplacement de l’antique Phénicie). C’est le sarcophage que le fils du roi Ahiram fit construire à son père comme dernière demeure. Rappelons en passant que l’étymologie de Byblos vient de la façon dont les grecs nommaient cette ville de la côte phénicienne en grec ancien : ‘biblion’, dont soit dit en passant est issu le mot même de ‘bible’ et qui se traduit par ‘livre’ en français actuel.

Plusieurs types d’écritures ont existé comme le cunéiforme, le hiéroglyphique ou le type d’écriture chinoise mais c’est l’écriture par la transcription alphabétique qui a eu le plus de succès jusqu’à nos jours en occident.

Un texte : est formé par l’ensemble des caractères des éléments constituant un discours ou l’échange entre deux locuteurs ou l’expression graphique d’un auteur. Nous approximerons le texte comme étant un ensemble écrit et non un ensemble oral.

Un corpus : est constitué par la réalisation (ou actualisation) d’un seul texte ou d’un ensemble de textes déterminé. Il est utilisable comme une unité ou comme un ensemble de fragments.

Le lexique : est formé de toutes les occurrences possibles de toutes les formes articulées que constituent l’ensemble des occurrences (ou formes lexicales) potentielles ou réalisées d’une langue. Certaines formes peuvent apparaître avec une fréquence de réalisation plus ou moins importante dans un texte déterminé ou pas du tout. Certaines autres formes ne sont jamais apparues qu’une seule fois et certaines n’ont jamais été attestées. Celles qui n’ont été attestées qu’une seule fois sont dite ‘hapax legomenon’ ou plus simplement ‘hapax’. Le simple fait de les citer fait que l’on tombe dans l’ambiguïté car alors elles ont perdu leur statut de hapax, usuellement ont peut quand même lever cette ambiguïté en parlant d’un hapax déterminé dans un corpus.

 Une occurrence : est la réalisation (ou actualisation) d’un groupe ou d’un ensemble de caractères graphiques d’un alphabet séparés par le délimiteur et formant une unité dissociable dans le flot des caractères, particulièrement par ce qu’ils peut être voisé en représentant une unité de parole ‘sensée’ pour un locuteur déterminé d’une langue. Nous utiliserons par la suite souvent un terme équivalent mais avec la nuance qu’il serait potentiel plus que réel avec le vocable ‘forme lexicale’. Le lecteur pourra les prendre l’un pour l’autre à cette nuance près : l’occurrence est la chute dans le réel d’une forme lexicale, et par généralisation toute occurrence est une forme lexicale. Et pour simplifier ici, on ne fera pas la différence entre la valeur sensée ou insensée d’une forme lexicale en considérant que toutes sont des formes sensées. Certains débattrons de la possibilité d’inclure les caractères de ponctuation dans la séquence et d’autres non. Il est plus simple de considérer qu’une occurrence d’un élément de lexique est formée strictement des caractères faisant partie de l’ensemble des caractères (a) défini ci-dessus.

 Un élément de lexique : dans une langue de type alphabétique est une suite de caractères de cet alphabet qui réalise l’actualisation graphique d’une forme phonétique potentielle ou réelle utilisable par un locuteur de la langue en question. En ce faisant nous éliminons, ici, du domaine d’étude de la lexicologie et de la lexicométrie toutes les séquences de caractères alphabétiques de longueurs aléatoires ne se terminant pas sur le caractère dit délimiteur, ainsi que toute séquence de caractères qui n’aurait pas son support phonétique réel pour un locuteur de la langue étudiée. En effet rien n’empêcherait d’étudier la lexicométrie en considérant qu’un élément du lexique est toute la séquence comprise entre deux caractères ‘e’ successifs ou bien ‘a’ successifs, nous serions encore dans de la lexicométrie mais pas très courante même chez 99% des linguistes s’intéressant à la lexicologie et la lexicométrie comme disciplines.

 Fin de la première partie

Christian Féghali





Accès au forums

Identifiant
Mot de passe
  1. Perdu votre mot de passe ?
  2. Pour vous inscrire aux forums