Дополнительный! Дополнительный!

Узнайте все о журналистике данных

Наука о данных оказала влияние практически на все основные области человеческой деятельности: коммерцию, образование, энергетику, программное обеспечение и журналистику.

В этой статье я покажу вам, как журналисты могут находить информационные истории в коллекциях документов.

Что такое журналистика данных?

Журналистика данных — это новый набор навыков для поиска, понимания и визуализации цифровых источников в то время, когда базовых навыков традиционной журналистики просто недостаточно.

Во времена, когда источники становятся цифровыми, журналисты могут и должны быть ближе к этим источникам. Это не замена традиционной журналистике, а дополнение к ней.

Интернет открыл возможности, выходящие за рамки современного понимания, а журналистика данных — это только начало развития прошлых практик для адаптации к онлайну.

Почему журналисты должны использовать данные

Используя данные, работа журналистов смещает основной акцент с того, чтобы быть первыми, кто сообщает, на тех, кто сообщает нам, что на самом деле может означать определенное развитие событий.

Диапазон тем может быть очень широким: следующий финансовый кризис, который находится в стадии становления, экономика продуктов, которые мы используем, нецелевое использование средств или политические ошибки и т. д. Эти темы могут быть представлены в убедительной визуализации данных, которая оставляет после себя впечатление. мало места, чтобы с этим поспорить.

Но работать с данными — это как ступить на огромную неизведанную территорию. Придать ему правильную форму для визуализации достаточно сложно. Нужны опытные журналисты, у которых достаточно выносливости, чтобы смотреть на часто запутанные, часто скучные необработанные данные и «видеть» в них скрытые истории.

Путешествие с данными

Процесс журналистики данных можно разделить на несколько отдельных этапов:

Определите, кто хранит данные и как они хранятся: электронные таблицы, форматы PDF, CSV, XML и т. д.
Получение данных: порталы открытых данных, парсинг и т. д.
Загрузите и подготовьте данные.
Создайте базу данных, которую можно было бы запрашивать на пути через ее внешний интерфейс.
Двойная проверка и анализ данных.
Доставляйте данные: истории, приложения или визуализацию.

Инструментарий для журналистов данных

Обработка данных — непростая задача.

Документы, как правило, имеют самые разные форматы, оформление и содержание, что
усложняет расследование с разным набором документов. Очистка, подготовка и анализ данных могут варьироваться в зависимости от коллекции документов.

С увеличением количества доступных данных сейчас как никогда важно, чтобы журналисты были осведомлены о методах журналистики данных.

Использование готового программного обеспечения для анализа текста является хорошей отправной точкой для ознакомления с основными операциями анализа текста и их результатами: подсчетом слов, извлечением сущностей, связями между документами и т. д.

Существуют платформы, предназначенные для журналистов, такие как:

Облако Документов.
Google Journalist Studio — набор инструментов, помогающих журналистам-расследователям.
Инициатива Google News предлагает цифровые инструменты, обучение и ресурсы, которые помогают им находить, проверять и рассказывать интересные истории.

У журналистов нет времени тратить время на то, чтобы расшифровывать вещи вручную и бездельничать, пытаясь получить данные из PDF-файлов, поэтому изучение небольшого количества кода невероятно ценно.

Многие бесплатные инструменты с открытым исходным кодом позволяют использовать более настраиваемую аналитику, включая ресурсы на языке Python (NLTK, spaCy, selenium, scikit-learn) и языке R (tm, cleantext) и других, которые уже могут быть более удобными для журналистов. знакомы с этими языками.

Преобразование данных в новости

Статья BuzzFeed News Несмотря на свои усилия, Facebook по-прежнему является домом для чрезвычайно вирусных фейковых новостей, опубликованная в 2018 году, является хорошим примером, показывающим, как использовать данные в журналистике.

На протяжении многих лет BuzzFeed News ведет списки сайтов, публикующих полностью сфабрикованные истории. Когда они обнаруживают новые и опровергают их содержание, они добавляют их в список.

Анализ содержится в Jupyter Notebook. Код, написанный на Python, сравнивает список сайтов 2018 года с его аналогами 2017 и 2016 годов. Он также ищет тенденции с течением времени и вычисляет самые популярные домены и категории.

По данным BuzzSumo и Trendolizer, с 1 января по 9 декабря 2018 года 50 самых популярных фейковых историй 2018 года, выявленных BuzzFeed News, собрали около 22 миллионов репостов, реакций и комментариев на Facebook.

На рисунках ниже показан код для составления списка самых популярных фейковых новостных статей по взаимодействиям с Facebook в 2018 году. Файл data/top_2018.csv содержит информацию о самых популярных фейковых новостных статьях 2018 года (по взаимодействиям с Facebook), опубликованных их списком сайтов с поддельными новостями за 2018 год.

Вход:

Топ-10 фейковых новостей по вовлеченности в Facebook в 2018 году:

Как был представлен топ-10 фейковых новостей в статье:

Заключение

Данные как пыль. Он повсюду, и мы часто тратим большую часть времени на его уборку.

Журналистика данных долгое время ограничивалась сферами новостей, политики, бизнеса и финансов. Что, если бы данные можно было очищать, собирать и формировать в картину, чтобы тоже рассказывать истории обо всем?

С развитием новейших технологий и ростом объема данных, доступных в Интернете, журналисты могут обращаться к первоисточникам для извлечения информации и рассказывания хороших историй.

Это все для этой статьи, спасибо за чтение! Вы можете связаться со мной в LinkedIn, используя следующую ссылку:

https://www.linkedin.com/in/fernando-oliveira-2a42b51a4/