Базовые методики анализа языковых картин политики с помощью языка программирования Python и библиотеки NLTK (на материалах корпусов британского парламентского дискурса)
Аннотация
В рамках данной статьи предлагается один из возможных вариантов оптимального набора базовых методик, необходимых для изучения языковых картин мира на материалах крупных текстовых корпусов с использованием сочетания языка высокоуровневого языка программирования Python и библиотеки NLTK (Natural Language Toolkit). Необходимость выделения и конкретизации означенного методологического инструментария проистекает из характера тех вызовов, которые стоят перед современной когнитивной лингвистикой и лексикологией в сфере анализа больших неструктурированных данных. Работоспособность и практическая ценность предлагаемых методик демонстрируется на примере составленных автором сплошных параллельных диахронических корпусов дискурса обеих палат британского парламента за период с 2006 по 2023 гг., совокупный объём которых превышает треть миллиарда токенов. Набор предлагаемых методик включает в себя инструменты анализа базовых параметров вокабуляра, инструменты извлечения целевого вокабуляра, а также обработки и визуализации его частотных параметров и сочетаемости. Целесообразность овладения предлагаемыми и систематизируемыми в рамках данной статьи методиками автоматического анализа текста обосновывается с позиции их необходимости как компетентностного минимума в области компьютерных технологий, который способен значительно повысить уровень лингвистических исследований и их научную конкурентоспособность. Автор приходит к выводу о том, что в силу объективно сложившихся условий современному отечественному исследователю языковых картин мира с высокой долей вероятности придётся включить в свой прикладной инструментарий сочетание языка программирования Python и библиотеки NLTK. Предлагаемые в данной статье методики делают возможным гибкое формирование исследовательских протоколов с учётом широкого разнообразия возможных приоритетов. В качестве главного преимущества предлагаемого автором набора методов машинной обработки и количественного анализа текста видится возможность использования практических навыков, полученных в результате её освоения как комфортной компетентностной основы для последующей интеграции овладевшего ими лингвиста в сообщество исследователей наиболее высокотехнологичных и наиболее актуальных на сегодняшний день направлений науки о языке.
Об авторе
С. Н. ГагаринРоссия
Гагарин Сергей Николаевич − кандидат филологических наук, старший преподаватель кафедры английского языка №1
119454, Москва, пр. Вернадского, 76
Список литературы
1. Айзенштат М.П. Новации в парламентской практике Британии XVIII столетия//Honoris causa. Сборник научных статей, посвящённый 70-летию профессора Виктора Владимировича Сергеева. Санкт-Петербург, 2016. С. 7−13.
2. Айзенштат М.П. Парламентские материалы Британии XVII-XIX веков// Запреты и преодоления. Новая и новейшая история. 2016. № 5. С. 16−25.
3. Быкова Е.А. Вопрос признания советского государства в политической дискуссии британского парламента/ E.A. Быкова, А.А. Сигова. Ветер Перестройки − 2022. // Сборник материалов Второй Всероссийской научной конференции/ отв. ред. А. Д. Матлин. Санкт-Петербург, 2023. С. 22−27.
4. Головина Н.М. «Непарламентские выражения» и речевая агрессия в британском парламенте: риторическая стратегия или институциональная норма? // Речь и языки общения в конфликтогенном мире. Материалы международной научно-практической конференции/ отв. ред. С.В. Мыскин. Москва, 2021. С. 37−39.
5. Захарова О.В. Обсуждение миграционной политики в британском парламенте// Человек, образ, слово в контексте исторического времени и пространства. Материалы Всероссийской научно-практической конференции. Москва, 2015. C. 93−96.
6. Зюбина И.А. Реализация коммуникативных стратегий в британском парламенте/ И.А. Зюбина, В.А. Маслова. // Уральский научный вестник. 2023. Т. 6, № 6. С. 53−60.
7. Ковалёв Н.А. «СВОИ» versus «ЧУЖИЕ»: динамика развития и манипулятивный потенциал концепта ХОЛОДНАЯ ВОЙНА в англоязычном политическом дискурсе/ Н.А. Ковалёв, Н.А. Чес. // Вестник Российского университета дружбы народов. Серия: Теория языка. Семиотика. Семантика. 2017. Т. 8, №4. С. 1171−1178.
8. Корецкая О.В. O некоторых политических эвфемизмах в эпоху постправды (на примере английского языка)// Филологические науки в МГИМО. 2021. Т. 7, № 3 (27). С. 16−23.
9. Корнилов А.А. Британский парламент как центр выработки внешнеполитических решений в период сирийского кризиса (2011-2015 годы)/ А.А. Корнилов, Н.С. Лобанова, A.И. Егоров. // Научный диалог. 2023. Т. 12, № 2. С. 363−384.
10. Корнилов А.А. Обсуждение палестино-израильского конфликта в комитете британского парламента по иностранным делам (2014 год)/ А.А. Корнилов, Н.С. Лобанова, О.Р. Жерновая. // Научный диалог. 2022. Т. 11, № 2. С. 437−462.
11. Лобанова Н.С. Ключевые термины документов британского парламента в области ближневосточной политики: этимология, политическое значение и примеры использования // Регионы мира: проблемы истории, культуры и политики. Сборник научных статей. Нижний Новгород, 2021. С. 107−112.
12. Лобанова Н.С. Подход комитета по иностранным делам британского парламента к кризису на Украине// Научно-аналитический вестник Института Европы РАН. 2023. № 6 (36). С. 7−18.
13. Михайлов В.В. Вхождение Азербайджана в состав советского государства и политика Великобритании в отношении Закавказья в 1918-1920 гг.: политический и социально-экономический аспекты// Учёные записки Крымского федерального университета имени В.И. Вернадского. Исторические науки. 2022. Т. 8, № 2. С. 73−87.
14. Хахалкина Е.В. “Поколение Виндраш” в контексте современного развития мультирасовой Великобритании (по материалам британского парламента)// Новая и новейшая история. 2022. № 6. С. 180−191.
15. Чес Н.А. Концептуальная метафора в политическом медиадискурсе (на материале английского языка): монография/ Н.А. Чес. Москва: МГИМО-Университет, 2020. 190 с.
16. Abercrombie G., Batista-Navarro R. A sentiment-labelled corpus of Hansard parliamentary debate speeches// Proceedings of ParlaCLARIN. Common Language Resources and Technology Infrastructure (CLARIN). 2018. P. 43−48.
17. Abercrombie G., Batista-Navarro R. Sentiment and position-taking analysis of parliamentary debates: a systematic literature review// Journal of Computational Social Science. Vol 3, №1. 2020. P. 245−270.
18. Abercrombie G., Batista-Navarro R. ‘Aye’or ‘no’? Speech-level sentiment analysis of Hansard UK parliamentary debate transcripts// Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). 2018. P. 4173−4180.
19. Abercrombie G., Batista-Navarro R. Identifying opinion-topics and polarity of parliamentary debate motions// Proceedings of the 9th workshop on computational approaches to subjectivity, sentiment and social media analysis. 2018. P. 280−285.
20. Aspinall P. Ethnic/racial terminology as a form of representation: A critical review of the lexicon of collective and specific terms in use in Britain// Genealogy. Vol. 4, № 3. 2020. P. 87−100.
21. Bischof K., Ilie C. Democracy and discriminatory strategies in parliamentary discourse// Journal of Language and Politics. Vol. 17, № 5. 2018. P. 585−593.
22. Charteris-Black J. Metaphor and gender in British parliamentary debates/ J. Charteris-Black. Palgrave Macmillan UK, 2009.
23. Coutto T. Half-full or half-empty? Framing of UK–EU relations during the Brexit referendum campaign// Crisis and Politicisation. Routledge, 2021. P. 85−103.
24. Cribb M., Rochford S. The transcription and representation of spoken political discourse in the UK House of Commons// International Journal of English Linguistics. Vol. 8, № 2. 2018. P1−14.
25. Duthie R., Budzyńska K. Classifying types of ethos support and attack// 7th International Conference on Computational Models of Argument. IOS Press, 2018. P. 161−168.
26. Hiltunen T. et al. Investigating colloquialization in the British parliamentary record in the late 19th and early 20th century// Language Sciences. 2020 [Электронный ресурс]. – URL: https://doi.org/10.1016/j.langsci.2020.101270 (дата доступа 04.03.2024).
27. House of Commons Hansard. [Электронный ресурс] – URL: https://hansard.parliament.uk/commons Avialable from: https://hansard.parliament.uk/commons (дата доступа 12.09.2023).
28. House of Lords Hansard. [Электронный ресурс] – URL: https://hansard.parliament.uk/lords. Avialable from: https://hansard.parliament.uk/lords (дата доступа 12.09.2023).
29. Huysmans J., Alessandra Buonfino A. Politics of exception and unease: Immigration, asylum and terrorism in parliamentary debates in the UK// Political studies. Vol. 56, № 4. 2008. P. 766−788.
30. Ihalainen P., Sahala A. Evolving conceptualisations of internationalism in the UK parliament: Collocation analyses from the League to Brexit// Digital Histories: Emergent Approaches within the New Digital History. 2020. P. 199−219.
31. Ilie C. Parenthetically speaking: Parliamentary parentheticals as rhetorical strategies// Dialogue Analysis 2000: Selected Papers from the 10th IADA Anniversary Conference. Tübingen: Niemeyer, 2003. P. 253−264.
32. Ilie C. Strategic uses of parliamentary forms of address: The case of the UK Parliament and the Swedish Riksdag// Journal of pragmatics. Vol. 42, № 4. 2010. P. 885−911.
33. Jeffries L., Walker B. Austerity in the Commons: A corpus critical analysis of austerity and its surrounding grammatical context in Hansard (1803–2015)// Discourse Analysis and Austerity. Routledge, 2019. P. 53−79.
34. Kettell S., Kerr P. From eating cake to crashing out: constructing the myth of a no-deal Brexit// Comparative European Politics. 2020. Vol. 18. P. 590−608.
35. Labat S., Kotze H., Szmrecsanyi B. Processing and prescriptivism as constraints on language variation and change: Relative clauses in British and Australian English parliamentary debates// Exploring Language and Society with Big Data: Parliamentary discourse across time and space. 2023. P. 250−276.
36. Leduc R. The ontological threat of foreign fighters// European Journal of International Relations. 2021. Vol. 27, № 1. P. 127−149.
37. Mair C. Empire, migration and race in the British parliament (1803–2005)// Exploring Language and Society with Big Data: Parliamentary discourse across time and space. 2023. P. 111−118.
38. McGill E., Saggion H. BSL-Hansard: A parallel, multimodal corpus of English and interpreted British Sign Language data from parliamentary proceedings// Proceedings of the Second International Workshop on Automatic Translation for Signed and Spoken Languages. 2023. P. 38-43.
39. McKenzie-McHarg A., Fredheim R. Cock-ups and slap-downs: A quantitative analysis of conspiracy rhetoric in the British Parliament 1916–2015// Historical Methods: A Journal of Quantitative and Interdisciplinary History. 2017. Vol. 50, № 3. P. 156−169.
40. Mollin S. The Hansard hazard: Gauging the accuracy of British parliamentary transcripts// Corpora. 2007. Vol. 2, № 2. P. 187−210.
41. Onyimadu O. et al. Towards sentiment analysis on parliamentary debates in Hansard// Semantic Technology: Third Joint International Conference, JIST 2013, Seoul, South Korea, November 28-30, 2013. Revised Selected Papers. Vol. 3. Springer International Publishing, 2014. P. 48−50.
42. Riihimäki J. At the heart and in the margins: Discursive construction of British national identity in relation to the EU in British parliamentary debates from 1973 to 2015// Discourse & Society. 2019. Vol. 30, № 4. P. 412−431.
43. Thundyill S. et al. Moving Fingers Write History and Having Writ Become Digital: Towards a Big Data Framework for the Analysis of Parliamentary Proceedings// Future of Information and Communication Conference. Cham: Springer Nature Switzerland. 2023. P. 459−479.
44. Van Dijk T. Political identities in parliamentary debates// European parliaments under scrutiny: Discourse strategies and interaction practices. 2010. P. 29−56.
45. Willis R. Taming the climate? Corpus analysis of politicians’ speech on climate change// Environmental Politics. Vol. 26, № 2. 2017. P. 212−231.
Рецензия
Для цитирования:
Гагарин С.Н. Базовые методики анализа языковых картин политики с помощью языка программирования Python и библиотеки NLTK (на материалах корпусов британского парламентского дискурса). Филологические науки в МГИМО. 2024;10(2):125-140.
For citation:
Gagarin S.N. Getting a handle on a Hansard with Python and NLTK, or how to tame the linguistic picture of British politics with NLP. Linguistics & Polyglot Studies. 2024;10(2):125-140. (In Russ.)