publikovani naučni rad

Naučni rad: "Klasifikacija web stranica bazirana na
Support Vector Machine"

Povodom mog učestvovanja na 13. Međunarodnom Simpozijumu ITeO 2021. na Paneuropskom univerzitetu "Apeiron" u Banjaluci, 24.09.2021. predstavio sam naučni rad na temu primene modela mašinskog učenja u obradi prirodnog jezika - NLP.
Abstract: Tradicionalne metode klasifikacije tekstova koriste ključne reči. U ovom radu za klasifikaciju tekstova predlaže se primena algoritma mašinskog učenja koja koristi vektorizovani tekst i parametre koje je moguće optimizovati. Predstavljeni su rezultati performansi različitih algoritama mašinskog učenja i analizom je ustanovljeno da su najbolji rezultati dobiveni korišćenjem Support vector machine algoritma, kao klasifikatora teksta. Na osnovu rezultata eksperimentalne analize podešavanjem parametara performanse modela su dodatno poboljšane. Rezultati predviđanja SVM klasifikatora za tekstove koji su
podeljeni u 12 kategorija su detaljno pojašnjena i prikazani su rezultati eksperimentalne analize.

Ključne reči: Vektorizacija teksta, support vector machine, NLP, klasifikacija web stranica.
UVOD: Modeli obrade prirodnog jezika (NLP) koriste se za merenje sličnosti rečenica. Većina predloženih pristupa zavisi o sličnosti reči u rečenicama. Istražuju se semantičke veze između reči i izračunava se sličnost. Određivanje modela za merenje sličnosti rečenica zavise o korišćenju optimalnog algoritma mašinskog učenja i optimalnih parametara. Određivanje optimalnih parametara poboljšat će rezultate predviđanja kategorizacije teksta. Postoje različite metode vektorizacije teksta koje su detaljno predstavljene u radu u procesu klasifikacije teksta pomoću modela mašinskog učenja. Algoritmi mašinskog učenja mogu se podesiti koristeći parametre koji predstavljaju složen prostor mašinskog učenja. Za klasifikaciju teksta koriste se nadzirani algoritmi mašinskog učenja koji koristeći trening podatke dodeljuje tekstuelni dokument odgovarajućoj kategoriji [1, 2]. Ovi algoritmi koriste se i za klasifikaciju teksta prilikom otkrivanja tema o kojima je pisano [3], zatim o filtriranju neželjene e-pošte [4], klasifikaciju e-pošte [5], identifikaciji autora [6, 7] i klasifikaciji web stranica [8, 9]. Za primenu algoritma tekstuelni podaci se transformišu u vektore. U ovom radu su analiziranirezultati predviđanja klasifikacije 3.277 tekstualnih objava preuzetih sa web stranice [10]. Za izradu modela predviđa odabir jednog od nekoliko algoritama mašinskog učenja. Najbolji rezultati predviđanja postignuti su korišćenjem Support Vector Machine klasifikatora. Support Vector Machine (SVM) primenjuju se u području klasifikacija teksta od kada je, 1963. godine, definisan izvorni oblik SVM algoritma predstavljen od Vladimira N. Vapnik i Alexey Ya. Chervonenkis [11]. SVM se vremenom transformisao kako bi uspešnije klasifikovao tekst [12]. Rad je podeljen na poglavlja 1) Uvod, 2) Primena vektorizacije i klasifikatora teksta, zatim 3) Optimizacija modela mašinskog učenja u kojem je pojašnjen način parametrizacije modela mašinskog učenja, zatim na 4) Predlog klasifikacije teksta modelom mašinskog učenja uz eksperimentalnu analizu. U poglavlju 5) nalaze se zaključne odredbe, i na kraju nalazi se popis korišćene literature.
Literatura

1. Lewis, D. D. Ringuette, M.: A Comparison of Two Learning Algorithms for Text Categorization. Third Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, NV, US, 1994, pp. 81–93.
2. Sebastiani, F.: Machine Learning in Automated Text Categorization. ACM Com-puting Surveys, Vol. 34, 2002, No. 1, pp. 1–47.
3. Bracewell, D. B. Yan, J. Ren, F. Kuroiwa, S.: Proceedings of the Irish Conference on the Mathematical Foundations of Computer Science and Information Technology (MFCSIT 2006). Electronic Notes in Theoretical Computer Science, Vol. 225, 2009.
4. Gunal, S. Ergin, S. Gulmezoglu, M. B. Gerek, O. N.: On Feature Extraction for Spam E-Mail Detection: Multimedia Content Representation, Classification and Security. Springer, Vol. 4105, 2006.
5. Drucker, H. Wu, D. Vapnik, V. N.: Support Vector Machines for Spam Categorization. IEEE Transactions on Neural Networks, Vol. 10, 1999, No.5, pp. 1048–1054.
6. Cheng, N. Chandramouli, R. Subbalakshmi, K. P.: Author Gender Identification from Text. Digital Investigation, Vol. 8, 2011, No. 1, pp. 78-88.
7. Stamatatos, E.: Author Identification: Using Text Sampling to Handle the Class. Information Processing and Management, Vol. 44, 2008.
8. I.Anagnostopoulos, C. Loumos, V. Kayafas, E.: Classifying Web Pages Employing a Probabilistic Neural Network. IEEE Proceedings Software, Vol. 151, 2004.
9. Chen, R. C. Hsieh, C. H.: Web Page Classification Based on a Support Vector Machine Using a Weighted Vote Schema. Expert Systems with Applications, Vol. 31,2006.
10. Web link: http://www.manastir-lepavina.org
11. Chervonenkis A.Y. (2013): Early History of Support Vector Machines. Springer, Berlin, Heidelberg.
12. Vapnik, V. N., and A. Y. Chervonenkis. "Об одном классе алгоритмов обучения распознаванию образов (On a class of algorithms of learning pattern recognition).
13. Wu, Y. Zhang, A.: Feature Selection for Classifying High-Dimensional Numerical Data. Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2004, Vol. 2, pp.II.
14. Chen, J.Huang, H.Tian, S.Qu, Y.: Feature Selection for Text Classification with Naive Bayes. Expert Systems with Applications, Vol. 36, 2009, No.3, Part 1, pp. 5432–5435.
15. Sebastian Raschka, Vahid Mirjalili. „Python – mašinsko učenje", Kompjuter biblioteka, 2020. ISBN 978-86-7310-549-9
XIII međunarodni naučno-stručni skup Informacione tehnologije za e-obrazovanje:
"ZBORNIK RADOVA" - Urednici: Akademik prof. dr ZORAN Ž. Avramović, docent dr Dražen Marinković. Izdavač: Panevropski univerzitet "APEIRON", Banja Luka, godina 2021.