Skribaj dialektoj en Esperantujo sur Telegram

Esperantistoj de diversaj landoj ne parolas aŭ skribas Esperanton tute sammaniere. La prononco kelkfoje aludas la devenon de parolanto – aparte de komencanta parolanto. Tamen, ankaŭ la vortelektoj povas teorie diri ion pri la deveno de parolanto. Ekzemple mi vidis hipotezojn ke

  • La vorto “la” ne ekzistas en la rusa, tial rusaj esperantistoj eble ne uzas “la” tiom multe kiom nerusaj esperantistoj.
  • La aktivaj kunmetitaj verboformoj (ekz. “mi estas kuranta”) estas oftege uzataj en la angla, do anglaj esperantistoj eble uzas tiajn formojn pli ofte.

En ĉi tiu afiŝo mi esploras vortelektajn diferencojn inter esperantistoj. Ĉu la plej grandaj diferencoj inter esperantistoj rilatas al la devenlando aŭ alia afero?  Por respondi tiun demandon, mi elŝutis ĉiujn mesaĝojn de la babilejo Esperantujo sur Telegram (vidu telegramo.org). En tiu babilejo esperantistoj de multaj landoj babilis kune ekde 2015. Entute mi elŝutis 469102 mesaĝojn skribite de 2453 malsamaj uzantoj (la babilejo ankaŭ enhavis 94113 mesaĝojn de nekonata nombro de forigitaj uzantoj). La babilejo estis pli aktiva antaŭ kelkaj jaroj sed ĝi ankoraŭ vivas.

aktiveco
La averaĝa aktiveco de la Telegrama grupo, Esperantujo.

En mia analizo mi konsideris la 100 uzantojn, kiuj sendis plej multajn mesaĝojn. Entute la 100 sendis 373790 mesaĝojn, do kvankam mi forigis pli ol 95 % de la uzantoj, mi analizis pli ol 75 % de la dateno. Por priskribi la vortelektadon, mi konstruis kelkcentojn kategoriojn en kiu mi enmetis ĉiun vorton. La suba grafikaĵo montras ĉiujn 293 kategoriojn kaj la frekvencojn de la kategorioj en la tuta Esperantujo Telegrama grupo kontraŭ la tuta Tekstaro.

Esperantujo_vs_Tekstaro_small
La 293 kategorioj da vortoj, kiujn mi konsideris en la analizo. Se vorto apartenas al multaj kategorioj, mi enmetas la vorton en la kategorio, kiu havas la pli longan nomon (ekzemple, kuranta taŭgas en la “-a”-kategorio sed ankaŭ la “-anta”-kategorio, do mi enmetas kuranta en “-anta”). La ruĝaj kolumnoj montras la frekvencojn en Esperantujo kaj la bluaj montras la frekvencojn en Tekstaro.

En la babilejo, estas multege da -as-finaĵoj, demandvortoj, kaj la vorto ‘mi’ kompare kun la Tekstaro. Tio havas sencon, ĉar babilantoj ofte konversacias per demandoj pri iliaj vivoj. Ĝenerale, Tekstaro pli ofte uzas la komplikajn sufiksojn -int, -ant, -iĝ, ktp.

Trovi dialektojn

Por trovi dialektojn en la datumo, mi kalkulis la precipajn konsisterojn(=”prinicipal components” en la angla). Precipaj konsisteroj estas profunda kaj valora metodo por kompreni grandajn datenarojn. Fakte, mia plej ŝatata grafikaĵo uzas precipajn konsisterojn por montri la genetikan diversecon en Eŭropo. Bedaŭrinde, precipajn konsisterojn estas malfacile komprenebla, tial la plej populara demando sur la statistika stackexchange estas kiel kompreni ilin. En ĉi tiu teksto mi ne klarigos la tutan rakonton pri ili – nur tion, kion ni bezonas.

Precipaj konsisteroj estas iel plej grandaj diferencoj en datenaro. En mia analizo mi konsideras du precipajn konsisterojn, mallongite PC1 kaj PC2. Laŭ komputado mi trovis ke ili estas

\text{PC1}= 10.69 \cdot F\{\text{-a}\}+0.48\cdot F\{\text{-aj}\}+\cdots+-0.016\cdot F\{\hat{\text{s}}\text{in}\}

\text{PC2}= -4.03 \cdot F\{\text{-a}\}+6.04\cdot F\{\text{-aj}\}+\cdots+-0.049\cdot F\{\hat{\text{s}}\text{in}\}

kie F\{-a\} estas la frekvenco de vortoj kiuj finas per “-a”, F\{\hat{\text{s}}\text{in}\} estas la frekvenco de la vorto “ŝin” ktp. Tio signifas ke eblas kalkuli la PC1an kaj PC2an valorojn por uzanto se ni enmetas ĝiajn vortkategori-frekvencojn en la suprajn formulojn. Sube, vi vidas kelkajn PCajn valorojn.

Uzanto PC1 PC2
Uzanto 1 2.751190 -4.067560
Uzanto 2 1.698756 -5.482913
\vdots \vdots
Uzanto 100 2.447304 -5.918827

Jen la PC1-ajn kaj PC2-ajn variablojn en koordinata sistemo:

uncolored_PCA
La PC1-aj kaj PC2-aj valoroj por la 100 plej multe skribintaj uzantoj. Ĉiu punkto estas uzanto.

Tio montras, ke estas kelkaj ekstremaj uzantoj (en la dekstra parto de la grafikaĵo). Tamen, sen interpreto de PC1 kaj PC2, tio ne havas multan sencon.

La unua precipa konsistero (PC1)

Matematike, la unua precipa konsistero estas konstruita tiel, ke ĝi estas la unika kombino de la variabloj F\{\text{-a}\}, F\{\text{-aj}\}, \dots, F\{\hat{\text{s}}\text{in}\}, kiu havas kiel eble plej grandan variecon (inter limigitaj, linearaj kombinoj). Alivorte, la una konsistero kaptas la plej grandan diferencon en la datenaro. Tamen sen plia ekzaminado, ni ne povas scii tion, kio estas la plej granda diferenco. En ĉi tiu analizo la diferenco povus esti inter esperantistoj kiuj memoras la akuzativon, kaj tiuj, kiuj forgesas la akuzativon. Ĝi ankaŭ povus esti inter esperantistoj de malsamaj landoj.

Por eltrovi ĉu unu el la konsisteroj rilatis al la devenlando de la uzantoj, mi serĉis tra iliaj individuaj mesaĝoj. En la babilejo la uzantoj ofte babilas pri iliaj landoj, do estis tre facile trovi frazoj kiel ‘mi loĝas en hispanio’. Mi sciiĝis pri la lando de ĉiuj de la 100 uzantoj krom du. Unu estis roboto (kiun mi forigis) kaj unu uzanto neniam menciis kie ĝi loĝas. Mi kolorigis ĉiun PC-punkton en la supra grafikaĵo laŭ la mondparto

colored_PCA
La PC1aj kaj PC2aj valoroj, kie la uzantoj estas kolorigataj laŭ iliaj deven-mondpartoj.
World Parts
La mapo montras kiel mi arigis la landojn en mondpartoj por la suba grafikaĵo. Mi nur kolorigis landojn, de kie almenaŭ unu el la 100 plej aktivaj uzantoj devenas.

Interese, la grafikaĵo montras ke la orientaj kaj rusiaj uzantoj ĝenerale havas grandan valoron de PC1. Alivorte, la plej granda diferenco (ene la vortkategorifrekvencoj) en la Telegrama Esperantujo estas ĉu uzanto estas orienta aŭ okcidenta. Notu ankaŭ ke la okcidentaj eŭropanoj kovras malgrandan areon same kiel la hispanoj. Tio implicas ke la okcidentaj eŭropanoj kaj hispanoj estas tiom homogenaj ke ni povas distingi ilin per la du precipaj konsisteroj. La latinamerikaj kaj anglalingvaj esperantistoj devenas de multe pli granda areo kaj ne estas disigeblaj per la du precipaj konsisteroj.

Kiel oni babilas Esperanton oriente? Por respondi tiun demandon ni povas konsideri la vortkategoriajn skalkvantojn (10.69,0.48,\dots,-0.016) de la supra formulo.

PC1
La skalkvantoj de PC1. Ju pli alta kolumno, des pli orienta estas la vortkategorio.

La supra grafikaĵo montras ke la orienta esperantisto ne ŝatas, ekzemple, e-finaĵojn, la vorton ‘la’, aŭ ‘mi’. Aliflanke, ili ofte konstruas frazojn per o-finaĵoj, a-finaĵoj kaj la vorto ‘en’. La fakto ke orientaj esperantistoj ankaŭ evitas la vorton ‘mi’ ŝajnas strange al mi.

La dua precipa konsistero (PC2)

Matematike, la dua precipa konsistero estas konstruita tiel, ke ĝi estas la unika kombino de la variabloj F\{\text{-a}\}, F\{\text{-aj}\}, \dots, F\{\hat{\text{s}}\text{in}\}, kiu havas kiel eble plej grandan variecon kaj estas senkorelacia kun la unua precipa konsistero.  Tio signifas ke la dua precipa konsistero kaptas tutan alian diferencon en la datenaro. Samkiel la unua konsistero, ni ne povas antaŭscii ĝian interpreton, do denove mi serĉis;

Post iomete da esploro estis klare ke la dua precipa konsistero temas pri la komplikeco de la lingva uzado. Ĝi klare rilatas al ambaŭ la diverseco kaj la longeco de mesaĝoj

message_length
La 100 plej aktivaj uzantoj kolorigataj laŭ la averaĝa nombro de vortoj en unu mesaĝo.
word_diversity
La 100 plej aktivaj uzantoj kolorigataj laŭ la averaĝa nombro de malsamaj vortoj inter 1000 vortoj.

Mi ankaŭ enmetis la individuojn tekstojn en la Tekstaro en koordinatan sistemon kun la uzantoj

pc_plot_with_tekstaro.png
La PC1aj kaj PC2aj valoroj de la 100 plej aktivaj uzantoj en Telegrama grupo Esperantujo kaj de ĉiu teksto en la Tekstaro.

Ĝenerale, ju pli diversa lingvouzado des pli granda valoro de PC2 kaj ju pli longaj mesaĝoj, des pli granda valoro de PC2. Tio povus signifi ke la PC2 valoro kaptas la esperantajn nivelojn da la uzantoj, sed eble ĝi nur kaptas kiel uzantoj preferas babili. Oni povus esti tre sperta pri Esperanto kaj samtempe preferi babili per mallongaj frazoj sen longaj vortoj.

La vortkategoriaj skalkvantoj de PC2:

PC2
La kvantoj por kalkuli PC2ajn valorojn. Ju pli alta kolumno des pli kontribuas ĝia vortkategori-frekvencon al granda valoro de PC2

Ni povas vidi ke homoj kun malaltaj niveloj de PC2 malpli ofte uzas la komplikajn finaĵojn -ig-, iĝ-, -at-, -it-. Tio kongruas kun la antaŭaj grafikaĵoj ĉar ni atendus ke diversecaj, mallongaj frazoj ankaŭ enhavas pli komplikajn vortojn.

Diskuto

Mi montris ke la plej grava diferenco inter la vortkategori-uzadoj de la uzantoj de la Telegrama grupo Esperantujo rilatas al la devenlando. Pli specife la diferenca akso (PC1) estas gradiento de okcidenta eŭropa tra hispanlingvaj landoj al orienta Eŭropo kaj Rusio. La dua plej grava diferenco estas inter komplika, longeca, diversa lingvouzado kaj la mala lingvouzado.

Ĉi tiu nur estis supraĵa esploro (explorative study en la angla), ĉar mi senhipoteze serĉis interesajn rilatojn en la datenaro. Tial mi ne atingis p-valoron (p-value en la angla), kiu respondus specifan duuman demandon. Mi eĉ ne atingis interesajn kvantojn rilate al la datenaro. Anstataŭe, mi atingis intuicion pri la datenaro, tio estas kiajn informojn ĝi enhavas. 

La vortkategori-uzadoj ja enhavas informon pri la devenlando de babilanto. Tio sugestas ke ni povus verki klasadan programon, kiu prediktas la devenlandon bazite sur la vortkategoriaj frekvencoj. La grafikaĵo sugestas ke la klasado nek estus perfekta nek neebla, sed estas malfacile diri kiom bone ĝi povus esti. Estas eblo partigi la vorkategoriojn en eĉ pli da vortkategoriojn. Ekzemple por havi pli da suffiksaj kategorioj kiel -eg-, -aĉ- ktp. Tiel la datenaro havus eĉ pli da informo por distingi devenlandojn. 

La vortkategorioj ne enhavas radikojn kaj mi elektis tion por eviti ke la priparolitaj temoj gravus tro multe. Ekzemple, en la Telegrama grupo, rusoj oftege mencias rusajn vorton kiel ‘rusio’ kaj ‘moskvo’ ktp. Se miaj vortkategorioj estus individuaj vortoj, ia precipa konsistero, kiuj kaptas la diferencon inter rusoj kaj okcidentaj eŭropanoj, povus eble nur mezuri la diferencon inter multajn kaj malmultajn rusajn vortojn. Tio ne estus tiom interesa kiom precipa konsistero bazite sur gramatikaj aferoj.

Metodoj kaj privateco

Privateco

Ĉiu membro de la telegrama grupo Esperantujo povas elŝuti ĉiujn mesaĝojn kaj tralegi ilin. Tio signifas ke iu ajn persona informo skribite en la babilejo ne estas sekura. Tamen mi ne volas publikigi personan informon pri iu (senpermese), do mi ne rivelas iun ajn uzantnomojn kaj mi arigis la mondon en sufiĉe grandajn partojn, por ke oni ne povas identigi uzanton per ĝia lando. Se vi suspektas ke vi estas unu el la plej aktivaj uzantoj de la babilejo kaj volas scii kie vi estas, skribu al mi kaj mi sendos tiujn informojn al vi.

Metodo

Mi elŝutis la datenaron per adaptigita kodo de telegram-message-dumper. Por kalkuli la vortkategorioj mi uzis la Python biblioteko esperanto-analyzer, kiu povas ordigi esperantajn vortojn en adjektivojn, substantivojn, pronomojn aŭ tiel plu. Por fari tion, ĝi ekzemple havas listojn de la specialaj adverbioj. Mi forigis ĉiujn vortojn, kiujn esperanto-analyzer ne povis rekoni. Pro tio plejparte de la neesperantaj vortoj estis forigitaj. Mi mane forigis kelkajn pliajn vortojn kiel ‘Youtube’ kaj ‘Jake’, kiuj ne estas esperantaj vortoj, sed estas adverbioj laŭ esperanto-analyzer. Mi aplikis precipan konsisteron analizon al la matrico

-a -aj \dots ŝin
Uzanto 1 0.0484 0.0156 0.00012
Uzanto 2 0.0383 0.0099 0.00010
\vdots \ddots \vdots
Uzanto 98 0.0457 0.0070 0.0

Poste mi trovis la krudajn precipajn konsisterojn mi turnis ilin pere varimax. 

Mi volas danki Anders Hauer-Møller, kaj Robin van der Vliet por helpi min pri la ideoj kaj la teksto,

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s