Visualization of the semantics of text descriptions presented in various formats

V.D. Minenko

Abstract


 This study is aimed at solving the problem of identifying semantics from arbitrary texts presented in various formats and further visualizing it using modern tools of generative artificial intelligence. The rapid development of artificial intelligence technologies provides fundamentally new opportunities for solving both text analysis tasks and content generation - visualizations (in the form of images or videos). As a result, we can talk about a different, modern level of solving applied problems using similar functionality. The field of generative artificial intelligence is still quite young and contains many unsolved problems. The generated visualization is characterized not only by the technical quality of the image or video, but also by the adequacy of the presentation of the semantics of the input text description, which usually directly depends not only on the possibility of the selected AI tool, but also on the structure and content of the input text prompt. This article describes the algorithm to form a chain of solving the given task, from the criteria for choosing tools of developments and identifying problems that need improvement or resolving, to determining the scheme of a composite solution. The method created within the framework of the proposed study has certain limitations, namely: it does not support multilingual content and does not cover the processing of dialects, slangs, automatic detection of the language of the text.

Problems in programming 2025; 1: 94-109


Keywords


visualization of semantics; semantically meaningful elements; generative artificial intelligence; natural language processing; text analysis methods; tokenization; lemming; segmentation; AI generation model; generative adversarial network; machine learnin

References


Yakymenko, D. O., Kataieva, Ye. Ye. Methods and Means of Intelligent Analysis of Text Documents. Вісник Черкаського державного технологічного університету, 2022. №2, C. 43-52. https://er.chdtu.edu.ua/handle/ChSTU/4165

Bisikalo, О., Vysotska, V., Burov, Y. Conceptual Model of Process Formation for the Semantics of Sentence in Natural Language. Proceedings of the 4th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2020). Volume I: Main Conference Lviv, Ukraine, April 23-24, 2020, 27p. CEUR Workshop Proceedings, available at: http://ceur-ws.org/Vol-2604/paper12.pdf

Іващенко О. О., П’ятикоп О. Є. Моделювання методу морфологічного аналізу україномовного тексту. Наукові праці Дон НТУ, Серія "Інформатика, кібернетика та обчислювальна техніка", 2020. № 2(31). C. 65-72. https://iktv.donntu.edu.ua/wp-content/uploads/2021/04/08_Yvashchenko-Piatykop-1.pdf

Singh, J., Singh, G., Singh, R. Morphological evaluation and sentiment analysis of Punjabi text using deep learning classification. Journal of King Saud University: Computer and Information Sciences. 2021, Vol.33, № 5. P. 508 -517. https://www.sciencedirect.com/sci ence/article/pii/S1319157818300612?via%3Dihub

Яровий А., Кудрявцев Д., Крилик Л. Удосконалення методу семантичного аналізу тексту. Інтелектуальні Інформаційні Техно логії. 2020, C. 34-36.

Landauer T., Foltz P., Laham D. Introduction to Latent Semantic Analysis. Discourse Processes, 1998. № 25. P. 259–284.

Press, W., Teukolsky, S., Vetterling, W. Singular Value Decomposition. Numerical Recipes in C., 2nd edition. Cambridge: Cambridge University Press, 1992. P. 59-71.

Deerwester, S., Dumais, S., Furnas,G. Indexing by Latent Semantic Analysis. Journal of the American Society for Information Science, 1990. Vol. 41 № 6. P. 391–407. URL: http://wordvec.colorado.edu/papers/Deerwester_1990.pdf

Основні поняття кластеризації та постановка задачі. https://csc.knu.ua/media/study/asp/mod_probl_inf_tech_sys_analysis_ivohin/lecture/lec11.pdf

Методи кластерного аналізу. Ієрархічні методи. https://moodle.znu.edu.ua/pluginfile.php/486140/mod_resource/content/1/Лекція%2010.pdf

Grolinger, K., Hayes, M., Higashino, W.A. Challenges for MapReduce in big data in Proc. IEEE World Congr. Services (SERVICES), 2014, pp. 182-189. https://ir.lib.uwo.ca/cgi/viewcontent.cgi?article=1095&context=electricalpub

Коновалова К. Машинне навчання: методи та моделі: підручник длябакалаврів, магістрів та докторів філософії спеціальності 051 «Економіка»// Харків: ХНУ імені В. Н. Каразіна, 2020. 280 с. https://www.researchgate.net/publication/345765254_MASINNE_NAV ANNA_ METODI_TA_MODELI

Новіков О.М., Лавренюк М.С. Огляд методів машинного навчання для класифікації великих обсягів супутникових даних. Системні дослідження та інформаційні технології. 2018. № 1. С. 52-71.

http://jnas.nbuv.gov.ua/article/UJRN0001075162 (дата звернення: 01.06.2024)

Maulik, U., Chakraborty, D. Remote Sensing Image Classification: A survey of support-vectormachine-based advanced techniques. IEEE Geoscience and Remote Sensing Magazine. 2017. Vol. 5, № 1. P. 33-52.

Bishop C.M. Pattern Recognition and Machine Learning. NY: pringer. 2006. 738 p.

Gislason, P.O., Benediktsson, J.A., Sveinsson, J.R. Random forests for land cover classification. Pattern Recognition Letters. 2006. Vol. 27 N 4. P. 294–300.

Праздніков В.О., Сугоняк І.І. Моделі та методи машинного навчання для розпізнавання фейкового контенту. Технічна інженерія, 2023. Том 2 №92. С.131-136. https://www.researchgate.net/publication/376878645_Modeli_ta_metodi_masinnogo_navcanna_dla_rozpiznavanna_fejkovogo_kontentu

Морфологічний аналізатор Pymorphy2 https://pymorphy2.readthedocs.io/en/stable/

Text Analyzer. https://asomobile.net/en/blog/text-analyzer/

Sense Clusters. https://metacpan.org/pod/Text::SenseClusters

JAMA: A Java Matrix Package. https://math.nist.gov/javanumerics/jama/

Рисін, А., Старко, В. Великий електронний словник української мови (ВЕСУМ). Веб версія 6.1.0. 2005-2023. https://vesum.nlp.net.ua/

Старко, В., Рисін., А. Великий електронний словник української мови (ВЕСУМ) як засіб NLP для української мови. Галактика слова. 2020. C.134-141. https://www.researchgate.net/publication/344842033_Velikij_elektronnij_slovnik_ukrainskoi_movi_VESUM_ak_zasib_NLP_dla_ukrainskoi_movi_Galaktika_Slova_Galini_Makarivni_Gnatuk

LanguageTool API NLP UK. URL: https://github.com/brownuk/nlp_uk

Браунський корпус української мови. https://github.com/brown-uk/corpus

Universal Dependencies corpus for Ukrainian. https://github.com/UniversalDependencies/UD_Ukrainian-IU/tree/master

Stanza – A Python NLP Package for Many Human Languages. https://stanfordnlp.github.io/stanza/

Manning, C., Surdeanu, M., Bauer, J. The Stanford CoreNLP Natural Language Processing Toolkit. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, 2014. P. 55-60.

Natural Language Toolkit: Documentation. 2024. https://www.nltk.org/

Міненко В., Аналіз застосування ШІ-генераторів для розв’язання складних бізнес-задач. Системи керування та комп’ютери, 2024, № 4. C. 10 – 18.

Іванов А., Онищенко В. Методи генерації зображень з використанням мереж GAN. Адаптивні системи автоматичного управління. 2023. Том 1 №42, C.153-159. https://asac.kpi.ua/article/view/279109


Refbacks

  • There are currently no refbacks.