Nollyris Algarín Rosado
Instituto de Estadística y Sistemas Computadorizados de la Información
Facultad de Administración de Empresas, UPR RP
Resumen
Los críticos literarios no suelen analizar las obras textuales usando estadísticas; pues no las consideran como alternativa en sus trabajos investigativos. El objetivo de este trabajo es presentar la minería de texto como técnica para hallar los términos representativos de una obra literaria que permiten su comprensión y contextualización. El trabajo utiliza como objeto de estudio los 153 poemas que Julia de Burgos escribió en español y que fueron publicados en libros. El análisis de estos poemas se realiza con el programa estadístico R, lo que permite determinar que los términos representativos de la obra son: vida, alma, mar, amor, ojos, río, sueño, mundo, sombra y viento. El hallazgo de estos términos brinda evidencia adicional que puede ser utilizada para apoyar la vasta crítica de Julia de Burgos. Se concluyeAdemás, concluyo que la minería de texto es una técnica que puede complementar el análisis de obras literarias.
Palabras Claves: Julia de Burgos, poesía puertorriqueña, análisis poético, minería de texto, Programado de lenguaje estadístico R
Abstract
Usually, literary critics do not analyze textual works using statistics as . Tthey do not consider them as an alternative when doing research papers. The objective aim of this work is to present text mining as a technique to find the representative terms of a literary work that allow its understanding and contextualization. The object of study of this research work is are the 153 poems that Julia de Burgos wrote in Spanish and that were published in book format. The analysis of these poems is carried out with the statistical program R, which allows to determinefinds that the representative terms of the work are: life, soul, sea, love, eyes, river, dream, world, shadow and wind. The finding of these terms provides additional evidence that can be used to support the vast criticism of Julia de Burgos’ work. It isAnother conclusion is concluded that text mining is a technique that can complement the analysis of literary works.
Keywords: Julia de Burgos, Puerto Rican poetry, poetry analysis, text mining, R statistical programming language.
Introducción
Los ciudadanos que habitan en el pueblo de Carolina respiran el aroma de Julia de Burgos (1914 - 1953). En cada rincón de este pueblo hay algún símbolo que les recuerda a esta gran poeta carolinense del siglo XX. No solamente Julia es recordada en este limitado lugar, pues al hablar de poetas femeninas puertorriqueñas, en el pensamiento de cada puertorriqueño, que se precie de serlo, la poeta emerge de forma inmediata, casi opacando a otras grandes poetas del país. Julia de Burgos no solo es importante para los puertorriqueños, si no que su dote artístico la ha llevado a ser considerada una de las poetas de más impacto en América. El presente estudio tiene como fin ofrecer una alternativa estadística al análisis literario de la poesía de Julia de Burgos, quien fuera, además de poeta, exalumna de la Universidad de Puerto Rico, Recinto de Río Piedras. Específicamente, pretende conocer y contextualizar los términos representativos de toda la obra poética de la artista publicada en libros, por medio de la minería de textos.
La minería de texto es un conjunto de técnicas, como la recuperación de información, métodos estadísticos y matemáticos, procesamiento de lenguaje natural, métodos de clasificación y agrupamiento de datos, que permite descubrir patrones o conceptos claves, en una o más fuentes textuales, para poder entenderlas, relacionarlas, e interpretarlas (Contreras, 2014). Los pasos para realizar una minería de texto, de acuerdo a Contreras (2014), son los siguientes: (a) determinar el propósito del estudio; (b) buscar e identificar las fuentes más relevantes para el objeto del estudio; (c) realizar un procesamiento de texto para eliminar información que no ayuda al propósito del estudio; (d) extraer y analizar las clases, asociaciones y secuencias estadísticamente para encontrar evidencias de conceptos y de estructuras existentes; y (e) presentar los resultados para su interpretación.
Las técnicas de minería de texto se pueden usar por investigadores enfocados en diferentes áreas del saber. En el campo de las humanidades, por ejemplo, la minería de textos puede servir para el análisis literario. El análisis literario implica examinar el argumento de una obra, su temática, el estilo de la escritura, la intención del autor, la relación con el ámbito social de la época en que se enmarca y otros aspectos que permiten comprender y evaluar la misma (Kush, 2016). Analizar una obra literaria no es un proceso que se pueda realizar utilizando una sola técnica. Los críticos y estudiosos de la literatura no suelen usar estadísticas para el análisis de obras textuales, pues no unen los números con las letras. La minería de texto es una técnica que, junto a otras formas tradicionales de análisis literario, puede facilitar el trabajo de estos estudiosos.
Metodología
El siguiente estudio tiene como fin conocer y contextualizar los términos representativos de toda la obra poética de Julia de Burgos, publicada en libros, por medio de la minería de textos usando como herramienta el programado gratuito de lenguaje estadístico R y su interfaz RStudio. La metodología para el uso de esta técnica es una mezcla de las recomendadas por Webminning Consultores (2012) y Arnold & Tilton (2018).
Los pasos para el análisis incluyeron, primeramente, el escribir los poemas de Julia de Burgos, publicados en lengua españolaespañosl, en el programado Microsoft Word y grabarlos en formato de texto. Se seleccionaron un total de 153 poemas - 26,072 palabras - contenidos en los poemarios: El mar y tú (Burgos, 1981) – 54 poemas, Canción de la verdad sencilla (Burgos, 1982) – 33 poemas, Poema en veinte surcos (Burgos, 1982) – 20 poemas, y otros poemas adicionales de periódicos e inéditos contenidos en el libro de colección Julia de Burgos: obra poética (Burgos y Bautista, 2004) – 46 poemas. Luego, se procedió a bajar y cargar los paquetes especializados: “tm” (Feinerer, Hornik y Meyer, 2008), “worldcloud” (Fellows, 2018), “RcolorBrewer” (Neuwirth, 2014) y “NLP” (Hornik, 2018) en el programado de lenguaje estadístico R. Más adelante, se indicó al programado R el leer el documento y convertirlo en ASCII, acrónimo en inglés para “American Standard Code for Information Interchange”, lo cualque es la manera de codificar un texto para usarlo en una computadora. Con el texto codificado se pasó a construir un “corpus” - tipo de estructura para los datos que permite la minería de textos. Se procedió, también, a modificar el “corpus” para poder analizarlo sin complicaciones: cambiar las letras a minúsculas, quitar los espacios en blanco, remover la puntuación y eliminar las palabras vacías – palabras que no eran relevantes parae el tipo de análisis que se iba a realizar porque no tienen en sí mismas significado, como por ejemplo: conjunciones, preposiciones, pronombres y artículos. Ya preparado el objeto de estudio, se pudo comenzar a realizar el análisis estadístico mediante la minería de texto. Con la ayuda de los paquetes estadísticos y unos comandos de programación especializados se analizaron los textos líricos de la poeta para conocer las palabras representativas de la obra de Julia.
Resultados
La aplicación de la minería de texto permitió conocer que la cantidad de palabras distintas analizadas en la totalidad de la obra fue de 4,215, luego de eliminar las palabras vacías: artículos, preposiciones y conjunciones. Esto permitió visualizar, además, mediante un gráfico de nube de vocablos (ver Gráfica 1), las palabras más frecuentes en la poesía de Julia de Burgos. La frecuencia de las palabras, en este diagrama, guarda relación con el tamaño de la fuente: mientras más grande es la fuente, mayor es la frecuencia en que aparece la palabra en la totalidad de los textos. De acuerdo con esto, vida y alma son las palabras más representativas en los poemas.
Un análisis más preciso de los textos permite presentar en orden descendente, las 10 palabras más frecuentes en la obra poética de Julia de Burgos (ver Gráfica 2): vida, alma, mar, amor, ojos, río, sueño, mundo, sombra y viento.
La minería de texto posibilitó, además, identificar las 7 palabras más frecuentes por obra individual estudiada (ver Tabla 1). Estos resultados distinguieron dos palabras que siempre aparecen entre las primeras siete de todas esas obras: vida y alma. Curiosamente, estos dos vocablos, que suelen encontrarse al tope de las palabras más frecuentes de las obras, ocupan la parte inferior de la obra titulada El mar y tú.
Debido a este hallazgo, se utilizó una prueba estadística de Ji-cuadrado para comprobar la existencia de una asociación entre las palabras vida y alma y los escritos publicados por la autora. Los resultados de la prueba fueron altamente estadísticamente significativos, (chi cuadrada, de 39.787 con 6 grados de libertad y con el valor p<0.000) [2] implicando que existe una asociación estadística entre las palabras vida y alma con los escritos de la autora. En otras palabras, las palabras frecuentes cambian de posición dependiendo del escrito. Este resultado evidencia y comprueba que sus escritos reflejan el momento de vida de la autora. Como en el caso del uso de la minería de texto, la prueba estadística establece que sus primeros escritos fueron dominados por las palabras vida y alma mientras que en su último escrito las palabras vida y alma pasan a la última posición dejando al tope otras dos palabras: mar y amor.
Conclusiones
La minería de datos funciona para analizar textos literarios como la poesía. Es útil poder, hacer a través de la estadística y de programados gratuitos como R y su interfaz RStudio, hacer este tipo de análisis para conocer más profundamente una obra. Los críticos y analistas literarios tienen a su disposición otra herramienta para complementar sus investigaciones.
El análisis de este estudio logró determinar que la obra poética en español de Julia de Burgos tiene como términos concurrentes: vida, alma, mar, amor, ojos, río, sueño, mundo, sombra y viento. Las palabras vida y alma están presentes entre las siete primeras palabras de cada una de las obras poéticas de la artista y son representativas de toda la obra. ¿Por qué estas palabras se destacan en todas sus obras? Una posible respuesta a esta pregunta podría darse al realizar un paralelismo entre lo que estaba ocurriendo en la vida de la autora con los términos hallados. Otra acción que se podría llevar a cabo sería compararlas con críticas literarias realizadas sobre su obra o con términos representativos de poemas de la época de la autora: poemas de autores féminas y masculinos. Todos estos análisis de contextualización, utilizados en conjunto con la minería de datos, podrían dar una idea más clara de la razón por la que estos términos se repiten de manera constante en su obra. Utilizando como fuente de referencia, por ejemplo, la biografía de Julia de Burgos publicada por Santos-Febres (2014), se podría indicar que la recurrencia de las palabras vida y alma en la obra poética de Julia de Burgos se puede deber a las creencias espiritistas de la poeta: “El Centro Espiritista es fundamental en el desarrollo del discurso poético y en la formación de las inquietudes y curiosidades metafísicas de Julia” (p. 47). Añade Santos-Febres (2014) que la influencia de estas creencias espiritistas “se vierte en los versos que la poeta escribe desde los 14 años y será parte sustancial de los temas que habitan la poesía de Julia de Burgos…” (p. 47). La recurrencia de estas dos palabras, en todas las obras poéticas de Julia de Burgos, podría servir para identificar la autenticidad de alguna obra inédita de Julia que pueda recuperarse en el futuro.
Otra interrogante, de acuerdo con los resultados, que podría responderse contextualizando la obra es: ¿por qué las palabras vida y alma, aunque están presentes entre las primeras siete palabras, descienden de nivel en el libro El mar y tú? Para esto se debe conocer la fecha de publicación original de los libros. El libro Poema en veinte surcos se publicó, por primera vez, en el año 1938 y el libro Canción de la verdad sencilla en el 1939. Por otra parte, en el libro El mar y tú, Julia de Burgos le indica, en una carta del 25 de septiembre de 1940 a su hermana Consuelo del 25 de septiembre de 1940, que está preparando el mismo (Burgos-Lafuente, 2014, p. 69) y el 17 de junio de 1941 le indica, en otra carta, que junto a la misma le está enviando el libro (Burgos-Lafuente, 2014, p.122). Este libro, por ende, Julia lo terminó de escribir entre los años 1940 y 1941, aproximadamente. La publicación de este, sin embargo, ocurre, luego de la muerte de la poeta, en 1954. El libro lo publica su hermana Consuelo y le añade otros poemas, que aunque fueron escritos por Julia, la poeta no los había incluido en su copia original. El contenido de estos nuevos poemas podría haber alterado el orden de las palabras más frecuentes. Un análisis mediante minería de texto se podría hacer evaluando solamente los poemas incluidos por la escritora para ver si el orden de las palabras más frecuentes cambia. Otro modo de contestar a la pregunta sería, estudiando la relación de las palabras frecuentes de cada libro con las experiencias de vida que estaba atravesando Julia.
En 1938, cuando se publicó el libro Poema en veinte surcos, Julia estaba activa en sus ideales nacionalistas, era reconocida por los poetas puertorriqueños de su época, y su poesía expresaba las injusticias sociales y su amor patrio. Las palabras vida y alma ocupan los dos primeros lugares de frecuencia en ese poemario; la vida y el alma dada por la patria. Otras palabras relacionadas con sus creencias nacionalistas del momento destacan entre las más frecuentes: hombre, río, mundo, tierra. Se puede apreciar en estas palabras la esencia de la naturaleza; de la humanidad y su conexión con lo que le rodea. Santos-Febres (2014) menciona, sobre los escritos de Julia en esa época: “Su temática, sobre todo, abandona los espacios de la comunidad burguesa y se inserta en la vibrante palabra del alma desgarrada por su circunstancia particular y por la desgracia de su pueblo que se moría de nada” (p. 121).
En cuanto al libro Canción de la verdad sencilla, el cual se publicó originalmente en 1939, se puede decir que el mismo nace en la época en que la poeta conoció y comenzó a convivir con su gran amor: Juan Isidro Jimenes Grullón (Santos-Febres, 2014). Esta época fue una de ilusiones y de mucha entrega al amor. Las palabras más frecuentes de esta obra comienzan, otra vez, con alma y vida y siguen con toda una serie de palabras que suelen relacionarse a los poemas que destacan el amor entre una pareja: amor, emoción, noche, sueño y ojos.
En el momento que Julia estaba escribiendo El mar y tú, sin embargo, la poeta está viviendo una etapa de tristeza y soledad que se ve reflejada en las cartas que le escribe a Consuelo: “Mi alma ha estado envuelta en tantas enredadas circunstancias, inexorables de azotes, que no sé cómo todavía tengo sueños…” (Burgos-Lafuente, 2014, p. 71). Julia está en compañía de su amado, pero no siente un gran compromiso de su parte. En una época donde la mujer es mal vista si convive sin estar casada, Jimenes Grullón no da indicios de quererse casar con ella. Julia no está generando dinero para poder publicar sus libros, para poder seguir estudiando, y vive a la sombra de su amado que, a diferencia de ella, sigue cultivando su quehacer político y social. En el prólogo del libro Julia de Burgos: obra poética se menciona lo siguiente: “El mar y tú es la gesta de un alma en los peligros de la soledad absoluta” (Burgos y Bautista, 2004, p. xlvii).
En fin, este estudio, que utiliza la minería de datos como técnica, es un pequeño paso complementario para la comprensión de una obra poética como la de Julia de Burgos, una autora carolinense puertorriqueña del siglo XX considerada por muchos como una de las figuras femeninas más representativas del verso en Hispanoamérica. Sirve, además, para utilizarlo en el futuro para el análisis de otras obras textuales.
Referencias
Arnold, T., & Tilton, L. (2018). Procesamiento básico de textos en R. (J. Isasi, Trans.). The Programming Historian en español. https://programminghistorian.org/es/lecciones/ procesamiento-basico-de-textos-en-r
Burgos, C., & Bautista, J. (2004). Julia de Burgos: obra poética. Editorial del Instituto de Cultura Puertorriqueña.
Burgos, J. (1981). El mar y tú otros poemas. Ediciones Huracán.
Burgos, J. (1982). Canción de la verdad sencilla. Ediciones Huracán.
Burgos, J. (1981). Poema en veinte surcos. Ediciones Huracán.
Burgos-Lafuente, L. (2014). Cartas a consuelo. Follium.
Contreras, M. (2014). Minería de texto: Una visión actual. Biblioteca Universitaria, 17(2). https://www.redalyc.org/pdf/285/28540279005.pdf
Feinerer, I., Hornik, K., & Meyer, D. (2008). Text mining infrastructure in R. Journal of Statistical Software, 25(5), 1-54. http://www.jstatsoft.org/v25/i05/
Fellows, I. (2018). Wordcloud: Word clouds (R package version 2.6). https://cran.R-project.org/package=wordcloud
Hornik, K. (2018). NLP: Natural language processing infrastructure (R package version 0.2-0). https://CRAN.R-project.org/package=NLP
Kush, C. (2016). Literary analysis: The basics. Routledge.
Neuwirth, E. (2014). RColorBrewer: Colorbrewer palettes (R package version 1.1-2). Recuperado 15 de noviembre de 2019, de https://CRAN.R-project.org/package=RColorBrewer
Santos-Febres, M. (2014). Yo misma fui mi ruta: La maravillosa vida de Julia de Burgos.
Municipio Autónomo de Carolina.
Webminning Consultores. (2012). Text mining de un discurso presidencial usando R. Recuperado 15 de noviembre de 2019, de http://www.webmining.cl/2012/03/text-mining-de-un-discurso-presidencial-usando-r/