Некоторые начальные исследования с использованием этих нграмм

bitheerani319 · Post by **bitheerani319** » Thu Jul 10, 2025 5:18 am

Набор данных Ngrams
Основываясь на этом невероятном архиве, проект GDELT и я превратили его в исследовательский набор данных новостных радиограмм , охватывающий 26 миллиардов слов английского языка по частям 550 станций с 2016 года по настоящее время.

Вы можете выполнить поиск по ключевым словам по всем 3 миллионам передач, но для исследователей, интересующихся более глубоким изучением лингвистических закономерностей радионовостей, новый набор данных ngrams включает в себя 1-5 грамм с разрешением 10 минут, охватывающие все четыре года и данные электронной почты каждые 30 минут. Для тех, кто не так хорошо знаком с концепцией ngrams , это таблицы частоты слов, в которых расшифровка каждой передачи разбита на слова, и для каждого 10-минутного блока эфирного времени составляется список всех слов, произнесённых за эти 10 минут на каждой станции, с указанием количества упоминаний каждого слова.

Как исследователи могут использовать подобные данные для получения новых знаний о радионовостях?

На графике ниже показано использование местоимений на BBC Radio 4 FM , сравнивая процент произносимых каждый день слов («мы», «нас», «наш», «наши», «наши») или («я», «меня», «я»). Слова, начинающиеся с «меня», используются более чем в два раза чаще, чем слова, начинающиеся с «мы». Но взгляните внимательно на февраль 2020 года, когда пандемия начала охватывать весь мир, и количество слов, начинающихся с «мы», стало увеличиваться, поскольку правительства начали принимать язык, подчёркивающий единство.