La Semantometria és una eina que mesura les publicacions de recerca a partir de l’anàlisi del text complet dels articles mitjançant tècniques de similitud semàntica.
El mot prové de semàntica, part de la lingüística que estudia el significat de les paraules, i del sufix -metria , mesura. [1]
Pel que fa a la similitud semàntica, dins l’àrea de processament dels llenguatges naturals, és la mesura d’interrelació existent entre dues paraules qualsevol en un text. El concepte es fonamenta en la idea que es té en lingüística sobre la coexistència de paraules i del discurs coherent. Dues paraules o termes pel fet de tenir la seva existència en un mateix document posseeixen un context similar. S’entén que aquestes dues paraules estan relacionades, i per tant, es pot deduir la seva distància semàntica. [2]
Figura 1 extreta de [3]
Aquest concepte el trobem publicat per primera vegada en un article del 2014, de Peter Knoth i Drahomira Herrmannov:
Cap a la Semantometria: una nova mesura basada en la similitud semàntica per avaluar la contribució d’una publicació de recerca.[4]
Fem-li una lectura detallada
L’abstract és una declaració de principis.
Proposem la semantometria, una nova classe de mètriques per avaluar la recerca. A diferència de la bibliometria, la webometria, l’altmetria, etc. existents, la semantometria no es basa en mesurar el nombre d’interaccions a la xarxa de comunicació acadèmica, sinó que parteix de la premissa que es necessita el text complet per avaluar una publicació. Aquest article presenta la primera mesura semantomètrica, que estima la contribució a la recerca. Mesurem la similitud semàntica de les publicacions connectades en una xarxa de cites i utilitzem una fórmula senzilla per avaluar la seva contribució. Duem a terme un estudi pilot en què provem el nostre enfocament en un conjunt de dades petit i discutim els reptes de dur a terme l’anàlisi en conjunts de dades de cites existents. Els resultats suggereixen que les mesures de similitud semàntica es poden utilitzar per proporcionar informació significativa sobre la contribució dels articles de recerca que no es captura amb les mesures d’impacte tradicionals basades únicament en cites.
Els autors plantegen la hipòtesi de treball que considera que per avaluar l’impacte d’una publicació necessitem el text complet de la publicació. I afirmen que el valor afegit d’una publicació p es pot mesurar en funció de la distància semàntica des de les publicacions citades per p fins a les publicacions que citen p.
De fet no s’està assenyalant altra cosa que el procés de cóm la recerca es basa en el coneixement existent per crear nou coneixement sobre el qual altres puguin construir. Una publicació, que d’aquesta manera crea un “pont” entre el que ja sabem i alguna cosa nova que la gent desenvoluparà a partir d’aquest coneixement, aporta una contribució a la ciència.
Una publicació té una gran contribució si crea un”pont llarg” entre àrees científiques més distants.
La figura 2 explica el càlcul de la contribució de la publicació p.
B és el conjunt de publicacions que citen p i A és el conjunt citat per p.
La fórmula que avalua la contribució d’una publicació es basa en la mesura de la distància semàntica entre les publicacions citades per p i les publicacions que citen p
El numerador i el denominador de la primera fracció es calculen segons l’equació
Segons les seves paraules:
En termes pràctics, el nostre mètode per avaluar la contribució d’un article significa que un article amb un alt impacte no necessita ser citat àmpliament, però ha d’inspirar un canvi en el seu domini o fins i tot definir-ne un de nou. Això es pot manifestar pels canvis en el vocabulari que són el resultat d’una publicació específica. En conseqüència, un debat acadèmic molt actiu sobre un article d’enquesta en un tema específic que genera moltes cites tindrà un impacte menor que un article que desenvolupa una nova línia de recerca. Una característica important d’aquesta idea és que el nostre mètode no requereix un retard tan llarg per a l’avaluació com els recomptes de cites àmpliament utilitzats (normalment dècades) i, per tant, es pot aplicar també a investigadors relativament joves. És difícil de manipular, respecta que les comunitats científiques tenen diferents mides en diferents disciplines, no se centra en la quantitat de publicacions com l’índex h, sinó en els aspectes qualitatius. Experimentar amb aquestes mesures no era possible en el passat, ja que, segons el nostre coneixement, no hi havia cap col·lecció que combinés la informació sobre les cites amb l’accés als textos complets.
De cara a comprovar la hipòtesi, calia trobar un conjunt de dades de publicacions de recerca que complís els requisits següents:
– Disponibilitat del text complet
– Densitat de la xarxa de cites
– Multidisciplinarietat
El fet de no trobar-ne cap d’adient principalment per la insuficient encara disponibilitat dels text complet, va dur als autors a fer l’experiment de crear un conjunt de dades exprés a partir del conjunt CORE. El formen 10 publicacions escollides més el veïnatge dels articles que citen i els que són citats d’aquests 10. En total 716 PDFs
Les publicacions apareixen ordenades per la 5a columna: Puntuació de citació (Citation score)
La 6a columna mostra el Número de referències (Number of references)
La 7a columna mostra la Puntuació de contribució (Contribution score)
La puntuació de contribució es calcula fent servir la mesura de similitud del cosinus en vectors de documents [5]
Aquests tres valors es comparan en el gràfic següent
Figura 3
Com a conclusió manifesten que
L’ús de les mètriques de rendiment de les publicacions de recerca actuals (bibliometria, altmetria, webometria, etc.) es basa, al nostre parer, en la premissa falsa que l’impacte (o fins i tot la qualitat) d’un article de recerca es pot avaluar únicament a partir de dades externes sense considerar el manuscrit de la publicació en si. Aquesta suposició s’assembla a la idea de jutjar una demanda sense que el sospitós tingui l’oportunitat d’estar davant els tribunals i, en conseqüència, és defectuosa de la mateixa manera. Vam demostrar que es poden desenvolupar noves mesures d’impacte que tinguin en compte el manuscrit de la publicació. Creiem que aquesta idea ofereix molt potencial per a l’estudi d’aquesta classe de mesures, que anomenem semantometria. Els resultats del nostre estudi pilot indiquen que la nostra mesura basada en la similitud semàntica de les publicacions a la xarxa de citacions és prometedora i s’hauria d’analitzar més a fons en un conjunt de dades més gran.
I acaben reivindicant l’accés obert a les publicacions de recerca no només per a què els humans les llegeixin, sinó també per a què les màquines hi accedeixin.
Posteriorment els mateixos autors han publicat altres articles sobre la semantometria
Al 2015, en un póster: Herrmannova, Drahomira; Knoth, Petr. Semantometria : Mesures basades en el text complet per a l’anàlisi de la col·laboració en la investigació [6], apliquen la semantometria a les xarxes de col·laboració i coautoria de les publicacions de recerca. Utilitzant la distància semàntica poden comprendre millor la col·laboració i la comunicació dins de les comunitats i els vincles intercomunitaris (“ponts”).
Un terme clau manllevat de les ciències socials és l’endogàmia d’investigació, la qual es pot definir com la pràctica o tendència a col·laborar amb els mateixos autors. Si considerem la distància semàntica dels coautors d’una publicació com la distància semàntica de tots els parells d’autors. I seguim per calcular-la la Figura 1 de l’article anterior sobre la Semantometria de la contribució, podem representar els tipus de col·laboració en la taula següent
Taula 2. Tipus de col·laboració segons la distància semàntica i l’endogàmia d’investigació.
En les seves paraules
Mentre la distància semàntica permet distingir entre col·laboració interdisciplinària i intradisciplinària, l’endogàmia d’investigació permet diferenciar entre col·laboracions d’investigació emergents i consolidades.
Al 2016 en una conferència:
Herrmannova, Drahomira; Knoth, Petr. Semantometria : Cap a una avaluació de la recerca basada en el text complet [7], es proposa un estudi comparatiu de la contribució semantomètrica amb les mesures bibliomètriques tradicionals basades en el recompte de citacions.
És un estudi semblant al que es va fer en l’article inicial del 2014 [4], però aprofitant, segons els autors, que cada vegada és més fàcil obtenir un conjunt de dades d’avaluació en el que es pugui analitzar les propietats de la mètrica de contribució. De tal manera que es van escollir:
– com a representants de les mesures bibliomètriques el recompte de cites obtingut de Microsoft Academic Graph (MAG)
– com a representants de les mesures almètriques les dades d’ús (lectures) de Mendeley
– com a representants de les mesures semantomètriques de contribució els articles d’investigació agregat per Open Access Connecting Repositories (CORE).
La fusió dels tres conjunts de dades va donar un conjunt final amb metadades, xifres de citacions i xifres de lectors de 1,6 milions d’articles d’accés obert.
Així com 10 milions d’articles que citen o són citats pels de CORE
Figura 4. (1 de [6]). Resultats de l’estudi
Per generar les figures [a], [b], [c], [d], [e], [g] i [h] les dades es van dividir en 20 grups de la mateixa mida segons una de les mètriques estudiades (eix x). Posteriorment es va calcular la mitjana i la desviació estàndard d’una segona mètrica (eix y) per a cada grup. Els valors mitjans es representen per l’alçada de les barres; les línies verticals sobre les barres representen les desviacions estàndard. Les línies horitzontals contínues representen el valor mitjà de tots els grups.
La conclusió en paraules dels autors:
Els resultats del nostre estudi suggereixen que la mètrica de contribució captura aspectes del rendiment de la investigació diferents als del nombre de cites. Més específicament, creiem que la semantometria té el potencial de capturar la qualitat i la contribució de la investigació, en lloc de l’impacte de la mateixa.
Bibliografia
[1] Semàntica: https://ca.wikipedia.org/wiki/Sem%C3%A0ntica
[2] Similitud semántica: https://es.wikipedia.org/wiki/Similitud_sem%C3%A1ntica
[3] Imatge obtinguda de
Albes, Matheus. Semântica, o que é? Conceito, características e exemplos de uso. Conhecimento Científico. 4 agosto 2020
[4] Knoth, Petr; Herrmannova, Drahomira (2014). “Towards Semantometrics: A new Semantic similarity based measure for assessing a research publication’s contribution“. D-Lib Magazine. 20 (11/12). doi:10.1045/november2014-knoth. Retrieved August 19, 2016.
[5] Manning, Christopher D., Raghavan ; Prabhakar Raghavan, and Schütze, Hinrich. 2009. An Introduction to Information Retrieval. Cambridge University Press, online edition
[6] Herrmannova, Drahomira; Knoth, Petr. Semantometrics: Fulltext-based measures for analysing research collaboration. Proceedings of ISSI. 2015:1103-1104.
Text complet: https://oro.open.ac.uk/60975/1/issi2015_poster.pdf
[7] Herrmannova, Drahomira; Knoth, Petr. 2016. Semantometrics: towards fulltext-based research evaluation. In Proceedings of the 16th ACM/IEEE-CS on Joint Conference on Digital Libraries (JCDL ’16). Association for Computing Machinery, New York, NY, USA, 235–236. https://doi.org/10.1145/2910896.2925448
Text complet: https://export.arxiv.org/pdf/1605.04180v1







