dc.contributorMartínez Quezada, Daniel Orlando
dc.contributorOrtiz Beltrán, Ariel Orlando
dc.contributorMartínez Quezada, Daniel Orlando [0000041131]
dc.contributorOrtiz Beltrán, Ariel Orlando [0001459925]
dc.contributorOrtiz Beltrán, Ariel Orlando [FS1dky4AAAAJ&hl=es&oi=ao]
dc.contributorMartínez Quezada, Daniel Orlando [0000-0002-9910-1770]
dc.contributorOrtiz Beltrán, Ariel Orlando [0000-0003-1522-2362]
dc.contributorMartínez Quezada, Daniel Orlando [Daniel-Martinez-Quezada]
dc.contributorOrtiz Beltrán, Ariel Orlando [Ariel-Ortiz-Beltran]
dc.creatorBorja Macías, David Elías
dc.date.accessioned2021-08-26T19:38:22Z
dc.date.accessioned2022-09-28T19:26:03Z
dc.date.available2021-08-26T19:38:22Z
dc.date.available2022-09-28T19:26:03Z
dc.date.created2021-08-26T19:38:22Z
dc.date.issued2019
dc.identifierhttp://hdl.handle.net/20.500.12749/14040
dc.identifierinstname:Universidad Autónoma de Bucaramanga - UNAB
dc.identifierreponame:Repositorio Institucional UNAB
dc.identifierrepourl:https://repository.unab.edu.co
dc.identifier.urihttp://repositorioslatinoamericanos.uchile.cl/handle/2250/3719080
dc.description.abstractTras el notorio auge de aplicaciones de Machine Learning en los últimos años, mayoritariamente del procesamiento de imágenes y audio, son pocas las aplicaciones en el área de la literatura, especialmente el reconocimiento de autoría. Por eso surge la pregunta ¿Qué tan efectivas son las técnicas de Machine Learning para la identificación de patrones de grandes volúmenes de textos literarios en el contexto hispanoamericano? Por ende, el objetivo de este trabajo fue desarrollar un sistema inteligente de reconocimiento de estilos literarios basado en obras de literatura universal en español, para automatizar la creación de textos que repliquen el estilo de los autores. Para llevar acabo la investigación se realizó una revisión del estado del arte en técnicas de Machine Learning para la problemática de clasificación de textos y el procesamiento del lenguaje natural. Posteriormente se recolectaron 86 obras literarias de dominio público de 8 autores, a la cual se le realizó un preprocesamiento para la extracción de características de frecuencia inversa de documento (TF-IDF), que se usan para formar vectores de características. Los modelos de Machine Learning propuestos fueron Naïve Bayes, Support Vector Machine y K-Nearest Neighbors; para la clasificación, y cadenas de Markov para la generación de texto, siendo el modelo de clasificación con mejor resultado Naïves Bayes con un accuracy de 0.6453125, y mejor valor del hiperparámetro keysize para la cadena de Markov de 3. Teniendo esto en cuenta cabe resaltar las limitaciones tenidas en este proyecto debido a los modelos de Machine Learning utilizados junto a la cantidad de características extraídas, y se recomienda implementar nuevos modelos capacitados en el análisis de series de tiempo temporales.
dc.languagespa
dc.publisherUniversidad Autónoma de Bucaramanga UNAB
dc.publisherFacultad Ingeniería
dc.publisherPregrado Ingeniería de Sistemas
dc.relationAnalytics Software & Solutions. (s. f.-a). Aprendizaje automático: Qué es y por qué es importante. Recuperado 22 de marzo de 2019, de https://www.sas.com/es_co/insights/analytics/machine-learning.html
dc.relationAnalytics Software & Solutions. (s. f.-b). What is Natural Language Processing? Recuperado 29 de marzo de 2019, de https://www.sas.com/en_us/insights/analytics/what-is-natural-languageprocessing-nlp.html
dc.relationArcila-Calderón, C., Ortega-Mohedano, F., Jiménez-Amores, J., & Trullenque, S. (2017). Análisis supervisado de sentimientos políticos en español: Clasificación en tiempo real de tweets basada en aprendizaje automático. El profesional de la información (EPI), 26(5), 973-982. https://doi.org/10.3145/epi.2017.sep.18
dc.relationArgamon, S., Koppel, M., Pennebaker, J. W., & Schler, J. (2009). Automatically profiling the author of an anonymous text. Communications of the ACM, 52(2), 119. https://doi.org/10.1145/1461928.1461959
dc.relationBermejo, E., & Martínez, Á. (2017, marzo). Machine Learning Whitepaper. Recuperado de https://www.slideshare.net/raona/machine-learningwhitepaper
dc.relationBetancourt, G. A. (2005). LAS MÁQUINAS DE SOPORTE VECTORIAL (SVMs). Scientia et technica, 1(27). https://doi.org/10.22517/23447214.6895
dc.relationCaballero, Y., Bello, R., Arco, L., Cárdenas, B., Márquez, Y., & García, M. M. (2010). LA TEORÍA DE LOS CONJUNTOS APROXIMADOS PARA EL DESCUBRIMIENTO DE CONOCIMIENTO. (162), 261-270
dc.relationCamacho, por J. A. (2018, octubre 26). Linear Discriminant Analysis. Recuperado 24 de octubre de 2019, de JacobSoft website: https://www.jacobsoft.com.mx/es_mx/linear-discriminant-analysis/
dc.relationCLiPS. (2010, octubre 13). MBSP for Python | CLiPS. Recuperado 17 de mayo de 2019, de http://www.clips.ua.ac.be/pages/MBSP
dc.relationCortes Vasquez, A. (2015). Learning System of Web Navigation Patterns through Hypertext Probabilistic Grammars. 11, 72-78. http://dx.doi.org/10.17981/ingecuc.11.1.2015.07
dc.relationDans, E. (2013). Estilometría y anonimato. Recuperado 8 de abril de 2019, de EnriqueDans website: https://www.enriquedans.com/2013/08/estilometria-yanonimato.html
dc.relationESAcademic. (s. f.). Derivación (lingüística) [Diccionario]. Recuperado 21 de abril de 2019, de Los diccionarios y las enciclopedias sobre el Académico website: http://www.esacademic.com/dic.nsf/eswiki/343084
dc.relationEspitia Betancourt, C. A., & Páramo Lozada, J. P. (2018). Aplicación del aprendizaje automático en la clasificación de textos cortos: Un caso de estudio en el conflicto armado colombiano. Recuperado de https://repository.ucatolica.edu.co/handle/10983/22546
dc.relationestilometria.com. (s. f.). Estilometría. Recuperado 7 de abril de 2019, de ESTILOMETRÍA website: http://www.estilometria.com/
dc.relationGarcía, L. G. (2018). CLASIFICADOR MEJORADO DE TEXTOS PARA EL CONTEXTO DE MEDIO AMBIENTE USANDO NAIVE BAYES MULTINOMIAL EN MÉXICO. 12.
dc.relationGonzález, C., Vega, Á., Vega, G., & Luengos, G. (2017). EstilometríaTSO – Estilometría aplicada al teatro del Siglo de Oro. Recuperado 8 de abril de 2019, de http://estilometriatso.com/
dc.relationGonzalez, L. (2019). Curvas ROC y Área bajo la curva (AUC) | #34 Curso Machine Learning con Python. Recuperado de https://www.youtube.com/watch? v=AcbbkCL0dlo
dc.relationGonzález, L. (2019, enero 4). Métodos de Selección de Características. Recuperado 24 de octubre de 2019, de Ligdi González website: http://ligdigonzalez.com/metodos-de-seleccion-de-caracteristicas-machinelearning/
dc.relationGonzález-Avella, J. C., Tudury, J. M., & Rul-lan, G. (s. f.). Análisis de Series Temporales Usando Redes Neuronales Recurrentes. Recuperado 22 de marzo de 2019, de https://www.apsl.net/blog/2017/06/14/analisis-de-seriestemporales-usando-redes-neuronales-recurrentes/
dc.relationGonzález-Meneses, Y. N., Pedroza-Méndez, B. E., López-Briones, F., PérezCorona, C., & Ramírez-Cruz, J. F. (2014). Implementación del clasificador naive Bayes para la acentuación automática de palabras ambiguas del español. . . ISSN, 9.
dc.relationInternetWorldStats. (2018, septiembre 8). Spanish Speaking Internet Users and Population—Statistics 2018. Recuperado 15 de agosto de 2019, de https:// www.internetworldstats.com/stats13.htm
dc.relationInternetWorldStats. (2019, julio 10). Top Ten Internet Languages in The World— Internet Statistics. Recuperado 15 de agosto de 2019, de https://www.internetworldstats.com/stats7.htm
dc.relationJamal, N., Mohd, M., & Noah, S. A. (2012). Poetry Classification Using Support Vector Machines.
dc.relationJockers, M. L., & Witten, D. M. (2010). A comparative study of machine learning methods for authorship attribution. Literary and Linguistic Computing, 25(2), 215-223. https://doi.org/10.1093/llc/fqq001
dc.relationKhan, A., Baharudin, B., Hong Lee, L., & Khan, K. (2010, febrero). A Review of Machine Learning Algorthms for Text-Documents Classification. 1(1). Recuperado de https://s3.amazonaws.com/academia.edu.documents/30773019/jait0101.pdf ? AWSAccessKeyId=AKIAIWOWYYGZ2Y53UL3A&Expires=1551884637&Sig nature=AlZd%2FGICjpWt2735Mt%2B7Zi83adA%3D&response-contentdisposition=inline%3B%20filename %3DJournal_of_Advances_in_Information_Techn.pdf#page=6
dc.relationKhatiboun, A. F. (2019). Machine learning en ciberseguridad. 50
dc.relationKo van der Sloot, & Maarten van Gompel. (s. f.-a). MBT. Recuperado 18 de mayo de 2019, de https://languagemachines.github.io/mbt/
dc.relationKo van der Sloot, & Maarten van Gompel. (s. f.-b). TiMBL. Recuperado 17 de mayo de 2019, de https://languagemachines.github.io/timbl/
dc.relationKo van der Sloot, & Maarten van Gompel. (s. f.-b). TiMBL. Recuperado 17 de mayo de 2019, de https://languagemachines.github.io/timbl/
dc.relationKoppel, M., & Schler, J. (s. f.). Exploiting stylistic idiosyncrasies for authorship attribution. Recuperado de https://cs.biu.ac.il/~koppel/papers/ijcaiidiosyncrasy-final.ps
dc.relationKrepych, S., & Spivak, I. (2018). Algorithm of Automatic Generation of Hotel Descriptions Using Templates Based on Markov Chains. 2018 International Scientific-Practical Conference Problems of Infocommunications. Science and Technology (PIC S T), 257-260. https://doi.org/10.1109/INFOCOMMST.2018.8632149
dc.relationKumar, V., & Minz, S. (2014). Poem Classification Using Machine Learning Approach. En B. V. Babu, A. Nagar, K. Deep, M. Pant, J. C. Bansal, K. Ray, & U. Gupta (Eds.), Proceedings of the Second International Conference on Soft Computing for Problem Solving (SocProS 2012), December 28-30, 2012 (pp. 675-682). Springer India
dc.relationLeón, R. A., Furlán, L. R., & Prieto, J. T. (2016). La detección de ansiedad y estrés en el lenguaje escrito mediante procesamiento automatizado por computadora. 86-95
dc.relationLou, A., Inkpen, D., & Tanasescu, C. (2015). Multilabel Subject-Based Classification of Poetry. The Twenty-Eighth International Flairs Conference. Presentado en The Twenty-Eighth International Flairs Conference. Recuperado de https://www.aaai.org/ocs/index.php/FLAIRS/FLAIRS15/paper/view/10372
dc.relationLuyckx, K., & Daelemans, W. (2005, noviembre). Shallow Text Analysis and Machine Learning for Authorship Attribution [Part of book or chapter of book]. Recuperado 6 de marzo de 2019, de LOT Occasional Series website: http://dspace.library.uu.nl/handle/1874/296538
dc.relationLuyckx, K., & Daelemans, W. (2008). Authorship Attribution and Verification with Many Authors and Limited Data. Proceedings of the 22Nd International Conference on Computational Linguistics - Volume 1, 513–520. Recuperado de http://dl.acm.org/citation.cfm?id=1599081.1599146
dc.relationMinitab, LLC. (s. f.-a). ¿Qué es ANOVA? [Mtbconcept]. Recuperado 24 de octubre de 2019, de https://support.minitab.com/es-mx/minitab/18/help-and-how-to/ modeling-statistics/anova/supporting-topics/basics/what-is-anova/
dc.relationMinitab, LLC. (s. f.-b). ¿Qué es una prueba de chi-cuadrada? [Mtbconcept]. Recuperado 24 de octubre de 2019, de https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/ tables/supporting-topics/chi-square/what-is-a-chi-square-test/
dc.relationMitchell, T. M. (1997). Machine Learning. Recuperado de http://profsite.um.ac.ir/~monsefi/machine-learning/pdf/Machine-LearningTom-Mitchell.pdf
dc.relationMoreno, A., Armengol, E., Béjar, J., Belanche, L., Cortés, U., Gavaldà, R., … Sànchez, M. (1994). Aprendizaje automático. Recuperado de http://hdl.handle.net/2099.3/36157
dc.relationNeethu, M. S., & Rajasree, R. (2013). Sentiment analysis in twitter using machine learning techniques. 2013 Fourth International Conference on Computing, Communications and Networking Technologies (ICCCNT), 1-5. https://doi.org/10.1109/ICCCNT.2013.6726818
dc.relationPang, B., Lee, L., & Vaithyanathan, S. (2002). Thumbs Up?: Sentiment Classification Using Machine Learning Techniques. Proceedings of the ACL02 Conference on Empirical Methods in Natural Language Processing Volume 10, 79–86. https://doi.org/10.3115/1118693.1118704
dc.relationPazzani, M. J., & Billsus, D. (2007). Content-Based Recommendation Systems. En P. Brusilovsky, A. Kobsa, & W. Nejdl (Eds.), The Adaptive Web: Methods and Strategies of Web Personalization (pp. 325-341). https://doi.org/10.1007/978-3-540-72079-9_10
dc.relationPelechano, V., & Pastor, A. (2005). Neuroticismo y trastornos de personalidad. Análisis y Modificación de Conducta, 31(139). Recuperado de http://rabida.uhu.es/dspace/bitstream/handle/10272/12605/Neuroticismo.pdf ?sequence=2
dc.relationPereira, J. (2016). Leveraging Chatbots to Improve Self-guided Learning Through Conversational Quizzes. Proceedings of the Fourth International Conference on Technological Ecosystems for Enhancing Multiculturality, 911–918. https://doi.org/10.1145/3012430.3012625
dc.relationPereira-Toledo, A., López-Cabrera, J. D., & Quintero-Domínguez, L. A. (2017). Estudio experimental para la comparación del desempeño de Naïve Bayes con otros clasificadores bayesianos. Revista Cubana de Ciencias Informáticas, 11(4), 67-84
dc.relationPérez-Planells, Ll., Delegido, J., Rivera-Caicedo, J. P., & Verrelst, J. (2015). Análisis de métodos de validación cruzada para la obtención robusta de parámetros biofísicos. Revista de Teledetección, (44), 55. https://doi.org/10.4995/raet.2015.4153
dc.relationPérez-Rubido, R. (2013). Una revisión a algoritmos de selección de atributos que tratan la redundancia en datos microarreglos. Revista Cubana de Ciencias Informáticas, 7(4), 16-30.
dc.relationR, J. E. R., F, H. A. B., & M, S. P. B. (2011). Software para el filtrado de páginas web pornográficas basado en el clasificador KNN - UDWEBPORN. Revista Avances en Sistemas e Informática, 8(1), 43-49
dc.relationRauet Garcia, A. (2019). Big Data aplicado al Marketing (Universitat Politècnica de Catalunya). Recuperado de https://upcommons.upc.edu/bitstream/handle/2117/165595/BigDataAplicado alMarketing_Aleix_Rauet.pdf
dc.relationRodríguez, Y., Fernández, Y., Bello, R., & Caballero, Y. (2014). Selección de atributos relevantes aplicando algoritmos que combinan conjuntos aproximados y optimización en colonias de hormigas. Revista Cubana de Ciencias Informáticas, 8(1), 79-86
dc.relationRomero, L. A. (s. f.). Redes Neuronales. Recuperado 22 de marzo de 2019, de http://avellano.fis.usal.es/~lalonso/RNA/index.htm
dc.relationRosettaCode. (2019, septiembre 4). Markov chain text generator—Rosetta Code. Recuperado 7 de noviembre de 2019, de https://rosettacode.org/wiki/Markov_chain_text_generator#Functional
dc.relationRubio Terrés, C. (2000). Introducción a la utilización de los modelos de Markov en el análisis farmacoeconómico. Farmacia Hospitalaria, 24(4), 241-247.
dc.relationRusso, C., Ramón, H., Alonso, N., Cicerchia, B., Esnaola, L., & Tessore, J. P. (2017). Tratamiento Masivo de Datos Utilizando Técnicas de Machine Learning. 131-134
dc.relationSalazar-Serrudo, C., & García-Villalba, J. (s. f.). A Web Searching Agent that Uses Intelligent Techniques. 10.
dc.relationSarro, L. M. (2009). Compromiso sesgo-varianza. Recuperado de https://canal.uned.es/video/5a6f8828b1111f4c618b45ea
dc.relationScikit-Learn. (s. f.). Choosing the right estimator—Scikit-learn 0.21.3 documentation. Recuperado 20 de octubre de 2019, de https://scikitlearn.org/stable/tutorial/machine_learning_map/index.html
dc.relationSebastiani, F. (2002). Machine Learning in Automated Text Categorization. ACM Comput. Surv., 34(1), 1–47. https://doi.org/10.1145/505282.505283
dc.relationSreeja, P. S., & Mahalakshmi, G. S. (2016). Comparison of Probabilistic Corpus Based Method and Vector Space Model for Emotion Recognition from Poems. Recuperado de http://docsdrive.com/pdfs/medwelljournals/ajit/2016/908-915.pdf
dc.relationStańczyk, U., & Krzysztof A., C. (2007). Machine learning approach to authorship attribution of literary texts. 1(4), 8.
dc.relationtfidf.com. (s. f.). Tf-idf: A Single-Page Tutorial—Information Retrieval and Text Mining. Recuperado 7 de abril de 2019, de http://www.tfidf.com/
dc.relationTim Jones, M. (2017, octubre 4). Aprendizaje profundo y Caffe, Deeplearning4j, TensorFlow y DDL. Recuperado 22 de marzo de 2019, de http://www.ibm.com/developerworks/ssa/library/cc-machine-learning-deeplearning-architectures/index.html
dc.relationTong, S., & Koller, D. (2001). Support Vector Machine Active Learning with Applications to Text Classification. Journal of Machine Learning Research, 2(Nov), 45-66.
dc.relationUgarriza, N. (1999). Neuroticismo, expresiones emocionales y percepción de la violencia en escolares. Revista de la Facultad de Psicología, (2), 79-110.
dc.relationULLmedia - Universidad de La Laguna. (2014). Representación de documentos mediante TF-IDF. Recuperado de https://www.youtube.com/watch? v=OkSZZ0F7ToA
dc.relationUniversidad de Sevilla. (s. f.-a). Capítulo 3—Perceptrón multipaca. Recuperado 7 de abril de 2019, de http://bibing.us.es/proyectos/abreproy/12166/fichero/Volumen+1++Memoria+descriptiva+del+proyecto%252F3+-+Perceptron+multicapa.pdf
dc.relationUniversidad de Sevilla. (s. f.-b). Capítulo 4—El perceptrón. Recuperado 7 de abril de 2019, de http://bibing.us.es/proyectos/abreproy/11084/fichero/Memoria+por+cap %C3%ADtulos+%252FCap%C3%ADtulo+4.pdf+
dc.relationUniversidad de Sevilla. (s. f.-c). Coeficiente de correlación lineal de Pearson. Recuperado de https://personal.us.es/vararey/adatos2/correlacion.pdf
dc.relationUniversitat politècnica de Catalunya. (s. f.). Aprendizaje Automático | Facultad de Informática de Barcelona. Recuperado 2 de abril de 2019, de Aprendizaje Automático—Facultad de informática de Barcelona website: https://www.fib.upc.edu/es/estudios/grados/grado-en-ingenieria-informatica/ plan-de-estudios/asignaturas/APA
dc.relationViera, A. F. G. (2017). Técnicas de aprendizaje de máquina utilizadas para la minería de texto. Investigación bibliotecológica, 31(71), 103-126. https://doi.org/10.22201/iibi.0187358xp.2017.71.57812
dc.relationWilbur, W. J., & Sirotkin, K. (1992). The automatic identification of stop words. Journal of Information Science, 18(1), 45-55. https://doi.org/10.1177/016555159201800106
dc.relationWitten, L. H., Frank, E., & Hall, M. A. (2011). Data Mining: Practical Machine Learning Tools and Techniques (3.a ed.). USA: Elsevier.
dc.relationYe, Q., Zhang, Z., & Law, R. (2009). Sentiment classification of online reviews to travel destinations by supervised machine learning approaches. Expert Systems with Applications, 36(3, Part 2), 6527-6535. https://doi.org/10.1016/ j.eswa.2008.07.035
dc.relationZhang, D., & Lee, W. S. (2006). Extracting Key-substring-group Features for Text Classification. Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 474–483. https://doi.org/10.1145/1150402.1150455
dc.rightshttp://creativecommons.org/licenses/by-nc-nd/2.5/co/
dc.rightsAbierto (Texto Completo)
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightshttp://purl.org/coar/access_right/c_abf2
dc.rightsAtribución-NoComercial-SinDerivadas 2.5 Colombia
dc.titleDesarrollo de un sistema de análisis de autoría de textos de literatura de autores hispanohablantes


Este ítem pertenece a la siguiente institución