Библиотека Конгресса Соединенных Штатов сообщила, что она завершила процесс сбора необходимых данных. Более 170 триллионов публичных твитов будут заархивированы в соответствующей коллекции.
Все началось в 2010 году, когда был создан контракт между государственным учреждением и Twitter. Поэтому платформа микроблогов начала предоставлять Библиотеке Конгресса соответствующие данные, начиная с 21 триллиона сообщений, созданных в период с 2006 по 2010 год, до остальных 150 трлн твитов.
Библиотека в заявлении о статусе проекта объявила, что Twitter будет принадлежать к новому типу коллекции. Общество все чаще фокусирует свою деятельность на крупных социальных сетях и использует их для общения и выражения своих чувств. В связи с этим будет создана новая коллекция, в которой будет храниться архив таких записей, конечно, только те, которые публикуются.
Хотя Библиотека Конгресса Соединенных Штатов все еще находится в процессе создания такого отдела и еще не предоставила доступ к посторонним, она уже собрала около 400 запросов от исследователей и ученых со всего мира. Несомненно, это станет интересным источником научной работы.
Пока неясно, как будут использоваться собранные данные, хотя библиотека предоставила документ, в котором вы можете найти некоторую информацию обо всем проекте.
Вам интересно, сколько может весить база данных твитов? Библиотека сообщила, что две копии всей базы данных, содержащей 170 триллионов сообщений, содержат около 133 терабайт данных. Другими словами, это около 136192 гигабайт.
Данные будут использоваться как для текущих, так и для будущих исследований. Комментирующие говорят, что с их помощью вы сможете делать такие вещи, как, например, анализ настроений, сопровождающих важные события, такие как президентские выборы или любые катастрофы.
И что у вас есть мнение об этом?