Diseño y metodología de un etiquetador semántico-ontológico multilingüe: ESMAS-ES+
Agencias de apoyo
- Proyecto PID2022-137170OB-I00, financiado por MICIU/AEI/10.13039/501100011033 y por FEDER/ UE.
Resumen
El etiquetador automático ESMAS-ES+ tiene como objetivo central la anotación semántico-ontológica de textos en español, francés, alemán y gallego. Junto con el estudio de la viabilidad de un nuevo método de análisis, el desarrollo del etiquetador requiere explorar nuevas vías para el procesamiento inteligente de la información y conocimiento, y, por ende, para la comprensión profunda del significado. Esta publicación presenta los principios metodológicos para su diseño, así como una panorámica de técnicas y estrategias aplicables para la generación de conocimiento lingüístico, multilingüe y tecnológico sostenible, lo que, a su vez, contribuirá al diseño de herramientas extrapolables a diferentes lenguas. La evolución de ESMAS-ES+ puede repercutir en algunas áreas del procesamiento del lenguaje natural, en especial, en aquellas ligadas a la comprensión y desambiguación del significado. De este modo, puede contribuir a favorecer la legibilidad y comprensión de datos lingüísticos por parte de máquinas.
Descargas
-
Resumen56
-
PDF26
Citas
ÁLVEZ, Javier, Jordi ATSERIAS, Jordi CARRERA, Salvador CLIMENT, Egoitz LAPARRA, Antoni OLIVER y German RIGAU (2008): «Complete and Consistent Annotation of WordNet using the Top Concept Ontology», en Nicoletta Calzolari et al. (eds.), Proceedings of the 6th Language Resources and Evaluation Conference (LREC'08), Marrakech, Morocco, pp. 1529-1534.
ARIAS-ARIAS, Iván (en prensa): «Nuevas vías para la desambiguación en frases nominales en alemán: fundamentos metodológico-lingüísticos para el desarrollo de una herramienta de anotación semántica (semi)automática», Círculo de Lingüística Aplicada a la Comunicación, 104.
ARIAS-ARIAS, Iván y Elena MARTÍN-CANCELA (en prensa): «Bridging Human and AI Perspectives: Semantic Annotation of Generic Nouns in German», Proceedings of the eLex 2025 conference.
BENTIVOGLI, Luisa, Pamela FORNER, Bernardo MAGNINI y Emanuele PIANTA (2004): «Revising WordNet Domains Hierarchy: semantics, coverage and balancing», en Gilles Sérasset et al. (eds.), Proceedings of Workshop on Multilingual Linguistic Resources, Stroudsburg, Association for Computational Linguistics, pp. 101-108. En línea: <https://dl.acm.org/doi/10.5555/1706238.1706254>.
BOSQUE, Ignacio (dir.) (2004): REDES. Diccionario combinatorio del español contemporáneo, Madrid, SM.
DOMÍNGUEZ VÁZQUEZ, María José (2025): Ontología 2.0. ESMAS-ES+, Santiago de Compostela. En línea: <https://grupoportlex.github.io/ontologia/>.
DOMÍNGUEZ VÁZQUEZ, María José y Rufus H. GOUWS (2023): «The Definition, Presentation and Automatic Generation of Contextual Data in Lexicography», International Journal of Lexicography, 36(3), pp. 233-259. DOI: https://doi.org/10.1093/ijl/ecac020
DOMÍNGUEZ VÁZQUEZ, María José, Carlos VALCÁRCEL RIVEIRO y Daniel BARDANCA OUTEIRIÑO (2021): Ontología léxica, Santiago de Compostela. En línea: <http://portlex.usc.gal/ontologia/>.
DOMÍNGUEZ VÁZQUEZ, María José (dir.), Carlos VALCÁRCEL RIVEIRO, Daniel BARDANCA OUTEIRIÑO, José Antonio CALAÑAS CONTINENTE, Natalia CATALÁ TORRES, Rosa MARTÍN GASCUEÑA, Mónica MIRAZO BALSA, María Teresa SANMARCO BANDE y Laura PINO SERRANO (2021): CombiContext. Prototipo online para la generación automática de contextos frasales y oraciones de la frase nominal en alemán, español y francés, Santiago de Compostela. En línea: <http://portlex.usc.gal/combinatoria/verbal>.
ENGEL, Ulrich (1988): Deutsche Grammatik, Heidelberg, Julius Gross Verlag.
ENGEL, Ulrich (1996): «Semantische Relatoren. Ein Entwurf für künftige Valenzwörterbücher», en Nico Weber (ed.), Semantik, Lexikographie und Computeranwendung, Tubinga, Niemeyer, pp. 223-236. DOI: https://doi.org/10.1515/9783111555522.223
ENGEL, Ulrich (2009): Syntax der deutschen Gegenwartssprache, 4.ª ed., Berlín, Schmidt.
GÓMEZ GUINOVART, Xavier y Miguel SOLLA PORTELA (2018): «Construyendo el WordNet gallego: métodos y aplicaciones», Recursos y evaluación de idiomas, 52(1), pp. 317-339.
GOUWS, Rufus (2014): «Towards bilingual dictionaries with Afrikaans and German as language pair», en María José Domínguez Vázquez et al. (eds.), Zweisprachige Lexicographie zwischen Translation und Didaktik, Berlín, De Gruyter, pp. 249-262. DOI: https://doi.org/10.1515/9783110366631.249
HARRIS, Zellig (1954): «Distributional Structure», Word, 10(2-3), pp. 146-162. DOI: https://doi.org/10.1080/00437956.1954.11659520
IZQUIERDO, Rubén, Armando SUÁREZ y German RIGAU (2007): «Exploring the automatic selection of basic level concepts», en Ruslan Mitkov, Galia Angelova, y Kalina Bontcheva (eds.), Proceedings of the International Conference on Recent Advances in Natural Language Processing, Shoumen, INCOMA, pp. 298-302. En línea: <https://adimen.si.ehu.es/~rigau/publications/ranlp07-isr.pdf>.
LI, Belinda, Maxwell NYE y Jacob ANDREAS (2021): «Implicit Representations of Meaning in Neural Language Models», en Chengqing Zong et al. (eds.), Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, vol. 1, Online: Association for Computational Linguistics, pp. 1813-1827. DOI: https://doi.org/10.18653/v1/2021.acl-long.143
MARTÍN GASCUEÑA, Rosa (2023): «Diseño de una ontología de semántica léxica para los proyectos MultiGenera y MultiComb», RILEX. Revista Sobre Investigaciones léxicas, 6(3), pp. 77-106. DOI: https://doi.org/10.17561/rilex.6.3.8083
MARTINELLI, Giuliano, Francesco Maria MOLFESE, Simone TEDESCHI, Alberte FERNÁNDEZ-CASTRO y Roberto NAVIGLI (2024): «CNER: Concept and Named Entity Recognition», en Kevin Duh, Helena Gomez y Steven Bethard (eds.), Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), México D.F., Association for Computational Linguistics, pp. 8336-8351. DOI: https://doi.org/10.18653/v1/2024.naacl-long.461
MCDONALD, Scott y Michael RAMSCAR (2001): «Testing the distributional hypothesis: The influence of context on judgments of semantic similarity», en Johanna Moore y Keith Stenning, (eds.), Proceedings of the 23rd Annual Conference of the Cognitive Science Society, Londres, LEA, pp. 611-616.
MEL’ČUK, Igor (2013): Semantics. From meaning to text, Ámsterdam/Filadelfia, John Benjamins.
MIKOLOV, Tomas, Kai CHEN, Greg CORRADO y Jeffrey DEAN (2013): «Efficient Estimation of Word Representations in Vector Space», en Yoshua Bengio y Yann Lecun (eds.), Proceeding of the International Conference on Learning Representations Workshop Track, Arizona, Conference Track Proceedings, pp. 1-12. DOI: https://doi.org/10.48550/arXiv.1301.3781
MILLER, George A., Richard BECKWITH, Christiane FELLBAUM, Derek GROSS y Katherine J. MILLER (1990): «Introduction to WordNet: An On-line Lexical Database», International Journal of Lexicography, 3, pp. 235-244. DOI: https://doi.org/10.1093/ijl/3.4.235
MÜLLER-SPITZER, Carolin, Martina Nied CURCIO, María José DOMÍNGUEZ VÁZQUEZ, Idalete Maria SILVA DIAS y Sascha WOLFER (2018): «Recherchepraxis bei der Verbesserung von Interferenzfehlern aus dem Italienischen, Portugiesischen und Spanischen: Eine explorative Beobachtungsstudie mit DaF-Lernenden», Lexicographica, 34(1), pp. 157-182. DOI: https://doi.org/10.1515/lex-2018-340108
NILES, Ian y Adam PEASE (2001): «Towards a Standard Upper Ontology», en Nicola Guarino, Barry Smith y Christopher Welty (eds.), 2nd International Conference on Formal Ontology in Information Systems (FOIS-2001), Ogunquit, Main, ACM, pp. 17-19. DOI: https://doi.org/10.1145/505168.505170
PEREIRA, Francisco, Bin LOU, Brianna PRITCHETT, Samuel RITTER, Samuel J. GERSHMAN, Nancy KANWISHER, Matthew BOTVINICK y Evelina FEDORENKO (2018): «Toward a universal decoder of linguistic meaning from brain activation», Nature communications, 9, pp. 1-13. DOI: https://doi.org/10.1038/s41467-018-03068-4
PETERS, Matthew, Mark NEUMANN, Mohit IYYER, Matt GARDNER, Christopher CLARK, Kenton LEE y Luke ZETTLEMOYER (2018): «Deep Contextualized Word Representations», en Marilyn Walker (eds.), Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, vol. 1, New Orleans, Louisiana, Association for Computational Linguistics, pp. 2227-2237. DOI: https://doi.org/10.18653/v1/N18-1202
PURAIVAN, Eduardo, Irene RENAU y Nicolás RIQUELME (2024): «Metaphor Identification and Interpretation in Corpora with ChatGPT», SN Computer Science, 5, art. n.º 976 (2024). DOI: https://doi.org/10.1007/s42979-024-03331-0
RAGANATO, Alessandro, Jose CAMACHO-COLLADOS y Roberto NAVIGLI (2017): «Word Sense Disambiguation: A Unified Evaluation Framework and Empirical Comparison», en Mirella Lapata, Phil Blunsom y Alexander Koller (eds.), Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 1, Long Papers, Valencia, Association for Computational Linguistics, pp. 99-110. DOI: https://doi.org/10.18653/v1/E17-1010
RENAU, Irene, Rogelio NAZAR, Ana CASTRO, Benjamín LÓPEZ y Javier OBREQUE (2019): «Verbo y contexto de uso: Un análisis basado en corpus con métodos cualitativos y cuantitativos», Revista Signos, 52(101), pp. 878-901. DOI: http://dx.doi.org/10.4067/S0718-09342019000300878
TRAP-JENSEN, Lars (2018): «Lexicography beHtween NLP and Linguistics: Aspects of Theory and Practice», en Jaka Čibej et al. (eds.), Proceedings of the XVIII EURALEX International Congress: Lexicography in Global Contexts, Ljubljana, Ljubljana University Press, pp. 25-37.
VOSSEN, Piek (1998): «EuroWordNet: Building a Multilingual Database with wordnets for European Languages», ELRA Newsletter, 3(1), pp. 7-10.
WEISCHEDEL, Ralph, Martha PALMER, Mitchell MARCUS, Hovy EDUARD, Sameer PRADHAN, Lance RAMSHAW, Nianwen XUE, Ann TAYLOR, Jeff KAUFMAN, Michelle FRANCHINI, Mohammed El-BACHOUTI, Robert BELVIN y Ann HOUSTON (2022): OntoNotes Release 5.0 (Version V1), Borealis. DOI: https://doi.org/10.5683/SP2/KPKFPI
RECURSOS ELECTRÓNICOS [último acceso a todos los recursos electrónicos: 24/9/2025]
AnCora = http://clic.ub.edu/corpus/es/ancora
BabelNet = https://babelnet.org/
ChatGPT = https://chat.chatbotapp.ai/
Combina = http://portlex.usc.gal/develop/combina.php
Copilot = https://www.microsoft.com/es/microsoft-copilot/organizations
CorefAnnotator = https://github.com/nilsreiter/CorefAnnotator
DeepSeek = https://chat.deepseek.com/
Derekovecs = https://corpora.ids-mannheim.de/openlab/derekovecs/
DICE = http://www.dicesp.com/paginas/index/2
DQF-MQM = https://www.taus.net/resources/blog/dqf-mqm-beyond-automatic-mt-quality-metrics
EuroWordNet = https://archive.illc.uva.nl/EuroWordNet/
EuroWordNet Top-Ontologie = https://archive.illc.uva.nl/EuroWordNet/corebcs/ewnTopOntology.html#_Toc419884299
Flexiona = http://portlex.usc.gal/develop/flexiona.php
Flexionador = https://ilg.usc.gal/flexionador
FrameNet = https://framenet.icsi.berkeley.edu/fndrupal/
FreeLing’s dictionaries = http://nlp.lsi.upc.edu/freeling/node/1
FunGramKB = https://fungramkb.ucam.edu/
Gemini = https://gemini.google.com
GermaNet = https://uni-tuebingen.de/en/142806
Kind = http://www.tecling.com/kind
Lematiza = http://portlex.usc.gal/develop/lematiza/
Linguakit = https://linguakit.com/es/analisis-completo
Louw & Nide Model = https://ucrel.lancs.ac.uk/usas/Louw&Nida/Louw&Nida_frameset.htm
MyMemory = https://mymemory.translated.net/
Multilingual central repository = https://adimen.si.ehu.es/web/MCR
Multitools = http://portlex.usc.gal/combinatoria/
NomBank = https://nlp.cs.nyu.edu/meyers/NomBank.html
Odgen = http://ogden.basic-english.org/bewords.html
OntoNotes 5.0 = https://catalog.ldc.upenn.edu/LDC2013T19
OPUS = https://opus.nlpl.eu/
PDEV/ CPA = https://pdev.org.uk/
PropBank = http://verbs.colorado.edu/~mpalmer/projects/ace.html
PyMusas = https://pypi.org/project/pymusas/
Semantic Domains = https://semdom.org
SemantiGal = https://tec.citius.usc.es/demos-lingua/index
SemLink = https://verbs.colorado.edu/semlink/
SenSem = http://grial.edu.es/sensem/corpus/main
Sketch Engine = https://www.sketchengine.eu
Tecling = https://www.tecling.com/
TraduWord = https://ilg.usc.gal/gl/proxectos/interoperabilidade-de-recursos-e-producion-automatica-de-linguaxe-natural
TreeTagger = https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/
UAM Corpus Tool = www.corpustool.com/index.html
USAS = http://ucrel-api.lancaster.ac.uk
Verbario = http://www.tecling.com/verbario/
VerbNet = https://verbs.colorado.edu/~mpalmer/projects/verbnet.html
Wikcionario = https://es.wikipedia.org/wiki/Wikcionario
WordNet = https://wordnet.princeton.edu
Xera = http://portlex.usc.gal/combinatoria/usuario
XeraWord = http://ilg.usc.es/xeraword/en/
XIADA = http://corpus.cirp.gal/xiada
Derechos de autor 2025 Revista de Investigación Lingüística

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.
Las obras que se publican en esta revista están sujetas a los siguientes términos:
1. El Servicio de Publicaciones de la Universidad de Murcia (la editorial) conserva los derechos patrimoniales (copyright) de las obras publicadas, y favorece y permite la reutilización de las mismas bajo la licencia de uso indicada en el punto 2.
2. Las obras se publican en la edición electrónica de la revista bajo una licencia Creative Commons Reconocimiento-NoComercial-SinObrasDerivadas 4.0 (texto legal). Se pueden copiar, usar, difundir, transmitir y exponer públicamente, siempre que: i) se cite la autoría y la fuente original de su publicación (revista, editorial y URL de la obra); ii) no se usen para fines comerciales; iii) se mencione la existencia y especificaciones de esta licencia de uso.
3. Condiciones de auto-archivo. Se permite y se anima a los autores a difundir electrónicamente las versiones pre-print (versión antes de ser evaluada) y/o post-print (versión evaluada y aceptada para su publicación) de sus obras antes de su publicación, ya que favorece su circulación y difusión más temprana y con ello un posible aumento en su citación y alcance entre la comunidad académica. Dulcinea: verde. OPF.


