ÉduFLE.net
Le site coopératif du FLE

Accueil du site > 95. Didactique du lexique, de la sémantique FLE > Étude lexicale d’un corpus en langues romanes, le roman télématique (...)

Étude lexicale d’un corpus en langues romanes, le roman télématique "Trofeo"

vendredi 10 juin 2005, par Jean-Claude Rolland

On examinera dans les pages qui suivent certaines des modalités d’accès au sens d’un texte en langue étrangère par le seul biais des éléments lexicaux qui le composent.

On verra que, pour ce faire, est évidemment requis un minimum de connaissances grammaticales, aussi bien morphologiques que syntaxiques, notamment :

- connaître au moins les quatre grandes catégories grammaticales que sont les noms, les verbes, les adjectifs, et les adverbes ;
- connaître l’ordre canonique de la phrase simple et les trois grandes fonctions : sujet, verbe, complément(s) ;
- savoir rattacher diverses formes fléchies régulières à une même forme lemmatisée ; s’attendre à des formes irrégulières pour certains verbes (auxiliaires, modaux), ainsi qu’à plusieurs types de conjugaison.
- connaître le système verbal des modes et des temps.

On supposera que ces connaissances ont été acquises en langue maternelle. On admettra que ces mêmes connaissances sont généralement plus ou moins applicables sans grand danger d’une langue à l’autre au sein de l’aire indo-européenne.

On s’intéressera au seul cas où les langues en présence sont les langues romanes suivantes : espagnol , français, italien, portugais. Cette limitation est due à la nature du corpus utilisé, où ne figurent que ces quatre langues.

Étant données nos caractéristiques personnelles, ethniques, socio-culturelles et professionnelles, les langues cibles traitées seront,

- dans une première partie, à la fois l’italien et le portugais, où nous nous mettrons dans la situation d’un apprenant francophone adulte relativement cultivé ayant une assez bonne connaissance de l’espagnol ;
- dans une deuxième partie, le français, où nous serons cette fois dans la situation d’un enseignant natif ayant un public d’adolescents ou d’adultes de langue maternelle romane autre que le français. Il est cependant probable que, dans cette partie, certaines de nos considérations vaudront pour un éventail de langues sources plus large que le strict cadre des langues romanes.

À l’exclusion de toute autre visée, on ne traitera que de la seule compétence de compréhension écrite de textes bien particuliers, à savoir ceux de messages électroniques échangés entre lycéens originaires de divers pays, chacun s’exprimant dans sa langue maternelle.

Du 3 au 7 mai 1993, en quatre séances de deux heures chacune, quelques 300 élèves, de 4 lycées français et de 12 établissements secondaires homologues d’Italie, d’Espagne, et du Portugal, ont collectivement participé, à partir de leur lieu de travail et chacun dans sa langue maternelle, à l’élaboration d’un "roman télématique", TROFEO, ainsi intitulé par l’animateur de ces séances, Francis Debyser, alors directeur-adjoint du Centre International d’Études Pédagogiques (CIEP) de Sèvres.

TROFEO a donné lieu à la production de 1438 messages de longueurs diverses dont voici la répartition par origine et ordre décroissant :

France 570
Italie 349
Espagne (dont quelques-uns en catalan) 278
Portugal 241

Le corpus comprend en outre 198 messages préparatoires échangés dans les quatre langues (mais majoritairement en français), à diverses dates à partir du 4 février et jusqu’au 30 avril.

L’objet de cette étude était de tester, sur un locuteur francophone ayant une bonne connaissance de l’espagnol - à savoir l’auteur de ces lignes -, sa capacité à comprendre les messages rédigés dans les autres langues : l’italien (connaissances rudimentaires), et le portugais (connaissances nulles). Le volume des échanges en italien (5039 mots) et en portugais (3670 mots) semblait constituer un corpus certes petit mais cependant homogène et assez riche, quantitativement et qualitativement, pour permettre l’obtention de résultats significatifs. Le catalan, non prévu au départ par les organisateurs, et donc présent dans un nombre trop réduit de messages (435 mots), n’a finalement pas été pris en compte. Cette étude a été menée aussi rapidement que possible - un peu plus d’une semaine pour l’italien, un peu moins pour le portugais -, afin de simuler au maximum la situation des élèves participants à TROFEO .

L’ensemble des échanges télématiques ayant fait l’objet d’une copie sur disquette sans modification de format, la totalité du corpus a d’abord été transférée sur un logiciel de traitement de texte. Ensuite, les messages en italien, portugais, et catalan ont été sélectionnés en fonction de leur lieu d’émission - en tenant également compte qu’une langue était parfois utilisée ailleurs que dans son pays d’origine naturel -, puis allégés des éléments parasites ou non pertinents tels que date, heure, expéditeur et destinataire, pour n’en conserver que le numéro d’ordre et le contenu. La plus grande partie du traitement a dû être effectuée manuellement.

Dans un deuxième temps, les messages d’une longueur supérieure à une phrase ont été segmentés en phrases – aux limites reconnaissables par la ponctuation -, ou membres de phrases lorsque cela semblait permettre de regrouper des ensembles lexicaux présentant, sans trop de risques d’erreurs, une unité sémantique évidente. Chaque phrase – ou segment – a été affectée d’un numéro, celui du message lui-même, suivi, en position décimale, d’un numéro d’ordre au sein du message. Les saisies négligeant le tiret de césure ont donné lieu à de nombreuses remises en forme, qui constituaient déjà par elles-mêmes un bon test de compréhension puisqu’il s’agissait souvent de “recoller” les unes aux autres des parties de mots inconnus. Nous avons d’ailleurs été amené, à plusieurs reprises au cours des diverses opérations, à revoir nos premières hypothèses et à revenir sur des “collages” s’avérant erronés.

Chaque phrase – ou segment – a été ensuite reproduite autant de fois qu’elle comptait de mots, chacun de ces mots prenant place dans une colonne "mot", en regard de sa phrase d’origine. Un tri alphabétique sur la colonne "mot" a permis, à la fin de cette étape, de regrouper et donc de visualiser toutes les occurrences ainsi regroupées d’un même mot, ou de rapprocher des mots morphologiquement apparentés, d’évidence ou en apparence.

Jusqu’à cette étape, ces opérations préparatoires de nettoyage typographique et de mise en forme du texte ont été conduites de la façon la plus mécanique possible, même si, nous l’avons vu, un minimum de réflexion a parfois été nécessaire pour recoller certains mots ou délimiter certaines phrases - ou segments de phrase - plus ou moins bien saisies ou ponctuées. Il est cependant indéniable que ces manipulations textuelles n’ont pu être faites totalement à l’aveugle : l’œil se pose forcément sur les mots et leur entourage et le cerveau se familiarise avec l’ensemble, au fil des réapparitions et des répétitions. Consciemment ou non, un premier travail de reconnaissance, de mémoire, et de recherche du sens se met en branle. Il nous faudra plus loin en tenir compte pour nuancer les résultats “scientifiques” de ce test auto-appliqué, mais sans oublier l’apport “cognitif” et l’intérêt pédagogique que peuvent constituer des travaux en apparence purement manuels, et qui ont peut-être alors été improprement et injustement traités de “préparatoires”.

La première étape qu’il nous a semblé nécessaire de devoir franchir, avant de nous lancer à la découverte du sens proprement dit, a été d’identifier, évidemment toujours en contexte, la catégorie grammaticale à laquelle les mots appartenaient, ainsi que la forme lemmatisée (réelle ou supposée, en cas d’absence d’une telle forme dans le corpus) des formes fléchies, ou supposées telles. Nous avons accordé autant de places que nécessaires à certains mots identifiés comme relevant à l’évidence de catégories différentes. Quant à la lemmatisation, elle ne s’est pas effectuée sans quelques difficultés - parfois non résolues - pour certains verbes fortement irréguliers comme le sont les équivalents italiens de nos tout aussi irréguliers "avoir", "devoir", "pouvoir", "savoir", "aller", etc.

Nous avons pris le parti de conserver tels quels certains mots, heureusement en très petit nombre, dont la graphie a priori surprenante, et due, semblait-il, à une saisie hâtive, aurait pu sans gros risque être rapprochée d’une autre, tels "accant", de "accanto", ou "perfez", de perfezione".

Le tableau ci-après donne les résultats chiffrés de cette première recherche sur les catégories. On voit que le total des vocables utilisés en italien pendant TROFEO est de 1306. Retenons également les pourcentages arrondis obtenus pour les quatre premières catégories, en laissant de côté celles qui sont affectées aux mots purement "grammaticaux" :

noms : 47 %, verbes : 20 %, adjectifs : 17 %, adverbes : 5 %
Catégorie Nb de voc %
Noms 618 47,32
Verbes 259 19,93
Adjectifs 224 17,15
Adverbes 71 5,43
Pronoms 25 1,91
Prépositions 26 1,99
Déterminants 12 0,91
Conj subordin 5 0,38
Conj coordin 3 0,22
Interjection 1 0,07
 ? 62 4,74
TOTAL 1306 100,00

L’étape suivante et dernière consistait à émettre enfin des hypothèses sur le sensdes vocables obtenus. Nous avons pour cela retenu quatre critères de classement :

- les vocables reconnaissables ou compréhensibles par transparence (ou quasi-transparence) avec le français (notés T), en étant conscient de l’existence probable, ici comme ailleurs, de "faux amis" ; ex. abitazione = habitation, ou encore candidatura = candidature.

- les vocables reconnaissables par transparence avec l’espagnol (notés E) ; ex. matrimonio = matrimonio, ou encore padre = padre. En cas de double transparence avec le français et avec l’espagnol, ce qui est naturellement assez fréquent, nous avons privilégié la transparence avec le français ; ex. barba.

- les vocables reconnaissables par inférence (notés I) et surtout par leur présence dans plusieurs contextes ; ex. dans le segment vivendoli i costumi i cibi di ogni paese nous avons ainsi pu comprendre que ogni signifiait chaque. De même, dans la phrase vorrei raccontar vi di un viaggio fatto con mio padre c’est par inférence et à partir d’autres contextes que nous avons compris les sens de vorreiet de viaggio. Répétons ici que les diverses expositions au texte entraînées par les travaux préparatoires ont vraisemblablement accru la part de l’inférence par rapport aux autres modes d’identification du sens.

- les connaissances personnelles ou générales (notés C). Nous avons marqué ainsi aussi bien les vocables qui sont familiers à tout le monde du fait de l’extension universelle de la chanson, du cinéma, et de la cuisine italiennes (bambino, carabiniere, ciao, mostra, pizza, etc.) que ceux que nous avions personnellement appris au fil des années par notre fréquentation de quelques amis italiens francophones bacio, capire, caro, dove, etc.)

Le tableau suivant donne, par catégorie, les résultats obtenus en fin de travail. On y voit que, par un moyen ou un autre, sans jamais avoir suivi le moindre cours d’italien ni essayé de l’apprendre en autonomie, nous avons au total compris le sens de près de 88 % des vocables de ce corpus. On y voit aussi la part prépondérante jouée par la transparence avec le français, qui a permis à elle seule d’accéder à plus de la moitié de la compréhension.

CatégorieCTEI ?
Noms 56 330 76 94 62
Verbes 8 145 31 58 17
Adjectifs 12 150 25 23 14
Adverbes 8 19 19 21 4
Pronoms 1 9 3 11 1
Prépositions 12 4 10
Déterminants 5 1 6
Conj subordin 2 1 2
Conj coordin 1 1 1
Interjection 1
 ? 62
TOTAL 86 673 161 226 160
% 6,60 51,50 12,30 17,30 12,30

Dans la foulée du travail décrit précédemment pour l’italien, nous sommes passé au corpus portugais (3670 mots, 961 vocables), en lui appliquant le même traitement, en suivant la même méthode, qu’il est donc inutile de décrire à nouveau. Nous passerons donc tout de suite aux résultats obtenus, en commençant par la compréhension du sens.

Catégorie C T E I  ?
Noms 4 193 159 59 34
Verbes 69 96 28 7
Adjectifs 1 85 51 20 14
Adverbes 10 28 11
Pronoms 3 20 7
Prépositions 1 5 6 4
Déterminants 1 14 4
Conj subordin 2 1 1
Conj coordin 2 1
Interjection 1
 ? 19
TOTAL 6 370 377 134 74
% 0,62 38,50 39,22 13,94 7,70

On voit que, sans jamais avoir suivi le moindre cours de portugais, sans même qu’il nous ait paru nécessaire de vérifier nos hypothèses dans des dictionnaires ou auprès de locuteurs portugais, nous avons au total compris le sens d’un peu plus de 92 % des vocables de ce corpus, pourcentage encore supérieur à celui obtenu avec l’italien (88 %). On voit aussi que la transparence avec le français et celle avec l’espagnol se situent ici à parts quasiment égales autour de 39 %. La part de l’inférence est quant à elle du même ordre de grandeur que pour l’italien (17 %). Les vocables déjà connus sont beaucoup moins nombreux en portugais qu’en italien (6,60 %), mais il y en avait tout de même quelques-uns : fado, janeiro, natal, obrigado, queimada, et tras.

Il conviendrait sans doute, pour rendre cette expérience plus crédible et la valider, de la répéter sur un nombre significatif de sujets et de l’appliquer à d’autres corpus homologues. Nous n’avons pour autant pas le sentiment d’être un "cas" linguistique : seul l’âge et donc quelques connaissances supplémentaires dues à l’expérience quotidienne nous distinguent peut-être des élèves qui ont participé à TROFEO . Ni l’anglais (qu’ils étudiaient sans doute tous) ni le latin (que certains étudient probablement) ne nous semblent avoir contribué à quelque degré que ce soit à la compréhension de certains mots. Aussi n’en avons nous pas tenu compte. Nous ne pouvons pas non plus parler au nom des locuteurs de langues maternelles autre que le français. Mais s’il s’avérait que les francophones apprenant ou ayant appris l’espagnol, ce qui est le cas d’un grand nombre d’entre eux, pouvait accéder quasi directement - disons à 15 % près - à la compréhension écrite de textes italiens ou portugais du même type, combien de traductions inutiles qui pourraient être avantageusement remplacées par des notes explicatives en bas de page ! Nous ne serions par ailleurs pas autrement surpris que ces nouveaux lecteurs aient ultérieurement très vite l’envie d’accéder aussi à une pratique orale de ces langues plus du tout étrangères et déjà moins étranges, et d’en savoir davantage sur leur nouveaux "frères en romanité". Qu’il nous soit permis d’imaginer une classe terminale du futur où, après quatre années d’espagnol ou d’italien, les lycéens français auraient, non plus un autre professeur d’espagnol ou d’italien, mais un "professeur de langues romanes", dont l’ambition serait, pour la langue romane première, que ses élèves accèdent à un assez bon niveau dans les diverses compétences, y compris la compétence culturelle, et, pour les deux autres, à une maîtrise "à 15 % près" de la compréhension écrite de textes produits dans la langue quotidienne, notamment ceux de messages électroniques, dont on est en droit de penser qu’ils ne peuvent être appelés qu’à se multiplier.

Laissons ce vœu pieu aux décideurs pour nous tourner maintenant vers une découverte tout à fait inattendue. Notre petite étude n’a pas échappé à ce principe quasi général selon lequel une expérience permet souvent de découvrir autre chose que ce que l’on cherchait initialement, ou quelque chose de plus.

Rappelons les pourcentages (arrondis) obtenus en italien (5039 mots, 1306 vocables) sur la répartition des mots en fonction de leur catégorie d’appartenance, en nous limitant aux quatre principales :

noms : 47 %, verbes : 20 %, adjectifs : 17 %, adverbes : 5 %

Les mêmes pourcentages arrondis obtenus pour le portugais (3670 mots, 961 vocables) sont les suivants :

noms : 47 %, verbes : 21 %, adjectifs : 18 %, adverbes : 5 %

Il apparaissait donc que, en dépit de totaux nettement différents en termes de mots et de vocables, les élèves italiens et portugais avaient eu recours à des bagages lexicaux - en terme de catégories - identiques à quelques décimales près ! Frappé par ce qui n’était peut-être qu’une coïncidence, nous avons évidemment élargi la recherche sur ce point aux deux autres langues du corpus, l’espagnol et le français. Voici les pourcentages arrondis que nous avons trouvés pour l’espagnol (3974 mots, 1100 vocables) :

noms : 48 %, verbes : 21 %, adjectifs : 19 %, adverbes : 5 %

et ceux obtenus pour le français (12833 mots, 1783 vocables) :

noms : 49 %, verbes : 20 %, adjectifs : 18 %, adverbes : 5 %

Est-il encore permis de parler de coïncidence ? Nous ne le croyons pas. À l’évidence, un jeune locuteur natif de langue romane s’exprimant sans autre contrainte qu’un vague canevas et utilisant les mots de tous les jours, fait appel dans son discours à la même proportion de catégories, quelle que soit sa langue maternelle et quelle que soit la taille de ce discours. Nous nous sentons donc en droit d’énoncer le principe suivant :

« En termes de vocables - et non de mots -, pour 1 adverbe dans son bagage lexical activé, le locuteur natif de langue romane décrit ci-dessus utilise environ 3 adjectifs, 4 verbes, et 10 noms. »

Les didacticiens en langues romanes, les concepteurs de programmes, et les auteurs de méthodes pourraient peut-être tirer parti de ce principe quand ils s’interrogent sur les contenus et volumes lexicaux nécessaires à tel ou tel niveau de l’apprentissage, si tant est qu’ils le fassent. Ce principe donne au moins aux professeurs un ordre de grandeur des proportions, par catégories, de vocables nouveaux à introduire jour après jour, leçon après leçon, en vue d’une progression équilibrée et performante dans l’acquisition d’un vocabulaire d’expression et de communication courantes.

Forts de ce principe sur la constance des proportions en terme de catégories, il nous reste à trouver quels sont exactement - ou à décider quels doivent être - ces noms, ces verbes, ces adjectifs et ces adverbes. En attendant, on peut déjà avoir une idée du volume de l’ensemble lexical à viser. On aura noté au passage que le nombre de vocables utilisés dans chaque langue se situe entre 961 et 1783 et qu’il varie évidemment avec la taille du corpus ; la proportion des vocables par rapport au nombre des mots est de 25,91 % pour l’italien, de 26,18 % pour le portugais, de 27,67 % pour l’espagnol, et de 13,89 % pour le français. Où l’on voit que pour les trois premières langues, aux corpus de tailles comparables, la proportion est quasiment la même. En revanche, pour le français, dont le corpus est à peu près le double du portugais, la proportion est diminuée de moitié. On peut donc raisonnablement penser qu’au fur et à mesure de l’accroissement de la taille d’un corpus le nombre de vocables tend à se stabiliser à un certain niveau, ce niveau étant celui du vocabulaire actif des locuteurs. Où le situer ? Dans une fourchette de 3000 à 4000 vocables, vraisemblablement, étant entendu qu’il ne s’agit là que du vocabulaire actif le plus courant. C’est en tout cas l’ordre de grandeur que s’était donné en son temps la Commission du français fondamental. C’est aussi le nombre de vocables qui a suffi à Corneille et Racine pour écrire tout leur théâtre.

Étude réalisée en 1994,
Texte revu et complété en 2005

Répondre à cet article

SPIP | | Plan du site | Suivre la vie du site RSS 2.0