Как избавиться от сэмплирования

Содержание
  1. Как избавиться от сэмплирования
  2. Как понять что к отчету в google analytics применено сэмплирование?
  3. Способы обхода сэмплирования
  4. Уменьшение диапазона дат
  5. Выгрузка данных при помощи дополнения для google spreadsheets
  6. Выгрузка при помощи Google Analytics Query Explorer
  7. Выгрузка данных при помощи языка R
  8. Купить google analytics 360
  9. Что не так с сэмплированием
  10. Зачем используется сэмплирование
  11. Кейс: как можно потерять деньги из-за сэмплирования
  12. Как избежать сэмплирования в GA
  13. Google Analytics — обходим семплирование и собираем сырые данные
  14. Как строятся отчеты в Google Analytics
  15. Как GA собирает данные — техническая сторона
  16. Собираем сырые данные
  17. Как это сделать
  18. Настройка хранилища
  19. Не все данные
  20. Как избежать семплирования в Google Analytics
  21. Соберите все данные для сквозной аналитики вместе с OWOX BI
  22. Содержание
  23. Когда и почему происходит семплирование
  24. Отчеты по умолчанию (Default Reports)
  25. Быстрые отчеты (Ad-hoc Reports)
  26. Визуализация переходов (Flow-visualization Reports)
  27. Отчеты по многоканальным последовательностям и атрибуции
  28. В чем минусы семплирования
  29. Как избежать семплирования
  30. В интерфейсе Google Analytics
  31. 1. Сократить отчетный период
  32. 2. Не использовать быстрые отчеты
  33. 3. Настроить фильтры на уровне представления
  34. 4. Создать отдельный ресурс для каждого сайта
  35. Вне интерфейса Google Analytics
  36. 1. Использовать OWOX BI Pipeline
  37. 2. Использовать Google Analytics API
  38. 3. Использовать аддон Google Analytics Spreadsheet
  39. 4. Перейти на Google Analytics 360

Как избавиться от сэмплирования

Сэмплирование — это способ выборки данных на основании которых будет построена отчетность. При сэмплировании для построения отчета используется только часть данных за период.

Сэмплирование применяется для того, чтобы снизить нагрузку на сервера при вычислениях и ускорить процесс формирования отчета.

Основной минус сэмплирования в том, что вы не получите точных данных, т.к. отчет строиться по части данных. Например в отчете на основе сэмплированных данных может быть показан доход 2 000 000, а на самом деле за этот период доход составил 3 000 000.

Как понять что к отчету в google analytics применено сэмплирование?

Обратите внимание на значок, похожий на щит, рядом с названием отчета. Если он оранжевого цвета, то к отчету применено сэмплирование, если навести на значок мышку, то появится подсказка с пояснением, что отчет создан на основе анализа определенного процента данных. Если значок зеленый, то отчет построен на 100% выборке данных

Согласно справке Google analytics стандартные отчеты не подвержены сэмплированию, т.е если вы никак не модифицируете отчеты, то в них будут присутствовать 100% данных.

Способы обхода сэмплирования

Уменьшение диапазона дат

Уменьшая диапазон дат, вы уменьшаете количество данных, которые придется обработать google analytics. Вы можете разбить нужный период на несколько диапазонов дат, сделать выгрузки в эксель и попытаться потом в экселе объединить нужные вам данные.

Выгрузка данных при помощи дополнения для google spreadsheets

Существует специальный аддон для гугл аналитикс, который умеет вытаскивать данные через api google analytics. Узнать подробнее и скачать его можно по ссылке

Аддон выгружает данные из google analytics в таблицу, где вы можете их обработать. У аддона есть свои ограничения, он способен загрузить только 10000 строк. Для того чтобы получить более 10000 строк вам необходимо добавить еще одну конфигурацию точно такого же отчета, но в полке start index указать значение 10001 таким образом вы дадите указание собирать данные с 10001 строки. Вы получите данные на двух листах и потом сможете их свести. Добавляйте больше конфигураций если вам нужно больше данных

Выгрузка при помощи Google Analytics Query Explorer

Еще один способ получения несемплированных данных это работа с api google analytics при помощи специального сервиса Google Analytics Query Explorer этот сервис позволяет при помощи ввода специальных параметров, аналогичных параметрам из предыдущего способа получать данные из google analytics, но тут тоже действует ограничение в 10000 строк, нужно делать несколько запросов если вам нужно много данных.

Выгрузка данных при помощи языка R

Существует специальный язык программирования R и специальная программа R-studio с их помощью можно вытягивать данные через api аналитикса, преимущество этого метода перед другими, в том, что вам не придется вручную выгружать по 10000 строк и сводить их вручную, есть специальный скрипт, и в нем заложен алгоритм который автоматически склеивает данные.

Кроме этого R это язык программирования в первую очередь направленный на обработку данных статистическими методами, изучив его глубже можно решать разные задачи по обработке данных. Подробнее о том как выгружать данные при помощи R-studio можно прочитать в этой статье

Купить google analytics 360

Это платная расширенная версия гугл аналитикса, в нем есть разные прикольные плюшки, а также увеличен лимит на не сэмплированные данные

Стандартная версия Google Analytics: 500 тыс. сеансов на уровне ресурса для используемого диапазона дат. Google Analytics 360: 100 млн сеансов на уровне представления для используемого диапазона дат.

Главный минус этого решения цена, минимально вам нужно будет платить 120 000 $ в год за использование этой системы

Источник

Что не так с сэмплированием

Сэмплирование данных значительно снижает нагрузку на вычислительные мощности. Но как можно судить о количестве дырок в сыре по одному куску? Что если из-за сэмплирования легко можно терять 20 тысяч и больше долларов в день?

Часто сэмплирование мешает проводить точный анализ потока данных, чему свидетельствует кейс под катом.

Сэмплирование — это способ формирования репрезентативной выборки так, чтобы можно было сделать выводы о генеральной совокупности.

Репрезентативность можно обеспечить, если выбирать элементы из генеральной совокупности случайным образом. Это означает, что у каждого посетителя сайта будет одинаковый шанс попасть в отчет. В большинстве случаев это не влияет на форму графика. Различие в значениях не будет заметно при переводе в процентное соотношение. Но сэмплирование может повлиять на статистически значимые различия.

Для того, чтобы сэмплированные данные могли адекватно передавать выводы обо всей совокупности, в выборке изначально не должно быть никаких аномалий: выбросов или провалов. Но никто от них не застрахован и почиканные данные могут быть искажены.

Более того, они даже могут быть скрыты маркетинговым эффектом, как описано тут.

Зачем используется сэмплирование

Google и Яндекс применяют эту технику для снижения нагрузки на свои сервера. Отчет генерируется гораздо быстрее, но он может ввести маркетолога в заблуждение.

Кейс: как можно потерять деньги из-за сэмплирования

Компания Х получает в среднем 2 миллиона пользователей в сутки. В этом случае гугл уже применяет сэмплирование данных. Каждый день компания покупает 50 тысяч пользователей по 2$ каждый. Таким образом в день на рекламу уходит 100 000 у.е.

Среднее значение конверсии платного трафика в регистрации составило 25% по версии Google Analytics. При проверке на сервисе t.onthe.io, который не использует сэмплирование, средняя конверсия составила 20%.

Значит какие-то данные потерялись или исказились при сэмплировании. Компания Х из-за этого теряла 20 000$ в день.

Как избежать сэмплирования в GA

Сэмплированные данные не всегда объективно отображают ситуацию. Есть несколько способов избежать сэмплирования.

Читайте также:  Солитер как от него избавится
1. Премиум аккаунт в GA

При наличии премиум-аккаунта гугл выдает чистые данные до 1 миллиарда хитов в месяц. Но стоит аккаунт 150 000 $ в год, а есть и более дешевые способы.

2. Уменьшение временного интервала выборки

Если для отчета используется большой временной отрезок (например отчет за год), то гугл скорее всего будет сэмплировать эти данные. Чтобы этого не допустить, можно разбить временной интервал на более мелкие части, например помесячно. А потом радостно слепить все месяцы вручную.

3. Увеличить точность

Можно увеличить точность выборки в настройках GA при формировании отчета. Погрешность представления данных уменьшится, но не сведется к нолю.

4. Сегментация данных с помощью представлений

Настроить несколько представлений данных. Например, на сайте 10 основных разделов, тогда можно сделать 8 представлений данных, которые будут принимать информацию каждый со своего канала. В общем потоке на сайт заглядывают все те же 2 миллиона пользователей в месяц. Каждый из разделов получает по 200 000 посещений. Получается что в каждом разделе данные сэмплироваться не должны. Минус в том, что аналитику всего сайта снова придется склеивать вручную.

Также можно использовать инструмент Google Analytics Query Explorer или скрипты на языке R. Подробнее об этих методах здесь.

Источник

Google Analytics — обходим семплирование и собираем сырые данные


Привет!

Если у вас посещаемый сайт (более 500 тысяч сессий за отчетный период) или вы строите какие-то сложные отчеты через интерфейс (сегментирование, подключение дополнительных параметров, частое изменение отчетного периода) — Google Analytics начинает экономить свои ресурсы и включает семплирование данных. Подробности хорошо описаны в официальной справке. То есть, чтобы подготовить вам отчёт, берутся не все данные, а какая-то часть, например 30%, и потом пропорционально показатели подгоняются под 100% и отображаются у вас в отчете.

Конечно, в таких случаях будет расхождение по количеству оплат, суммам транзакций и в количестве конверсий. Проверить легко — сравнить с цифрами из базы данных или CRM.

Избежать проблемы легко — подключить Google Analytics 360, но дорого.
Давайте научимся собирать сырые данные, используя бесплатный Google Analytics.

// эта инструкция — не решение всех ваших проблем, знакомимся с технологией!

Как строятся отчеты в Google Analytics

Чтобы отобразить отчеты в интерфейсе Google Analytics (далее GA), происходит следующее: сбор данных, обработка данных, формирование отчета.

Сбор данных
По протоколу Measurement Protocol GA собирает информацию о всех взаимодействиях: просмотры страниц, пользовательские события, транзакции.

Обработка информации
На основании полученной информации о взаимодействиях (просмотры страниц, другие события) GA:

  • разделяет их на сессии: если разница между взаимодействиями больше 30 минут (при базовых настройках),
  • рассчитывает кол-во просмотров на сессию, показатель отказов,
  • достаёт информацию об источниках из utm-меток и так далее,
  • Применяет фильтры, если вы их настраивали на уровне представления.

Формирование отчета
Когда вы открываете отчет через веб-интерфейс GA или по API, в зависимости от выбранного отчета, система достает данные из хранилища и возвращает информацию.

Как GA собирает данные — техническая сторона

Вы добавляете код, который предоставляет вам GA, или создаете тег через Google Tag Manager.

Когда этот код срабатывает в браузере пользователя, создается объект ga с трекером. Далее через этот трекер фиксируется взаимодействие — просмотр страницы.
Фиксируется взаимодействие, значит отправляется информация на сервер Google Analytics используя Measurement Protocol.

Если максимально упростить: информация на сервер GA передается через GET-запрос формата:

Можете открыть в браузере Панель для разработчиков, вкладка Network, сделать фильтр по слову “collect” и посмотреть подробную информацию по запросу.

То есть, через Query String в Google Analytics передаются данные:

Также каждый запрос сопровождается передачей ip-адреса, реферера, информацией о user agent.

Любые другие взаимодействия: события, транзакции также отправляются через этот трекер. То есть, трекер один и через него отправляется информация о всех взаимодействиях (стандартные + те, которые вы настроили самостоятельно).

Собираем сырые данные

Мы уже разобрались, как GA отправляет себе данные. Было бы здорово дублировать эти данные и сохранять их себе в хранилище.

Написать парсер, который будет собирать все параметры, которые собирает Google Analytics, подключить ко всем событиям… Нет, никаких велосипедов!

Прежде чем отправить информацию, скрипт GA выполняет серию заданий. Как раз отправка информации на сервер — это одно из заданий. И к нашей радости, эти задания можно модифицировать — отправлять данные не только в Google, но и на произвольный URL.

Как это сделать

Выберите вариант, через который у вас подключен счетчик Google Analytics:

Стандартный код установки analytics.js имеет вид:

Дорабатываем задание customTask, в итоге получается:

Нужно создать переменную customTask типа Custom JavaScript:

Теперь нужно к вашему тегу Universal Analytics добавить поле customTask со значением << customTask >>:

В итоге получается, что мы добавили новую задачу в трекер Google Analytics и при каждом взаимодействии информация будет отправляться не только в Google Analytics, но и на вашу точку входа.

Настройка хранилища

Для простоты я в качестве хранилища возьму Таблицы Гугл. Конечно, для большого количества данных это вообще не вариант. Но мы тут с технологией знакомимся, поэтому для примера подойдет.

Создаем таблицу, задаем имена колонкам. Имена должны соответствовать названию параметров из Query String, которые будет отправлять трекер Google Analytics:

Открываем редактирование скриптов:

Добавляем скрипт, который при каждом GET-запросе будет парсить Query String и добавлять значения в таблицу:

Запускаем функцию setup() и даем доступы на выполнение скрипта:

В опции “Who has access to the app” выбираем “Anyone, even anonymous”.

В итоге вы получите ссылку вашего Web App:

Скопируйте ссылку и перенесите ее в скрипт CustomTask, в переменную custom_tracking_url.

Теперь при всех настроенных взаимодействиях данные будут попадать не только в GA, но и в ваше хранилище.

Посмотрите как это работает в реалтайме:

  1. Откройте таблицу.
  2. Откройте тестовый сайт.
  3. Походите по сайту + следите за обновлениями в таблице.

Не все данные

Так как некоторые данные (например, IP-адрес) прилетают не через гет параметр, а в заголовках запроса можно их парсить на стороне принимающего скрипта.

С source / medium — тоже можно поработать, достать его из Pageurl и раскидать по разным колонкам.

На этом останавливаться не будем, думаю, что мысль понятна.

Источник

Как избежать семплирования в Google Analytics

Соберите все данные для сквозной аналитики вместе с OWOX BI

Соберите все данные для сквозной аналитики вместе с OWOX BI

Семплирование помогает сделать обобщенные выводы, когда невозможно или нецелесообразно анализировать все собранные данные. Google Analytics выбирает из всего объема данных лишь какую-то часть и использует ее для построения отчетов.

Семплирование характерно не только для GA — его используют в опросах общественного мнения, потребительских тестах, статистических исследованиях и т. д. Каждый раз, когда применяется семплирование, есть риск получить неточные результаты. В этой статье вы узнаете, каковы причины и проблемы семплирования, и как его избежать.

Читайте также:  Электро крот для канализации

бонус для читателей

Сравнительная таблица: 8 способов избежать семплирования

Содержание

Когда и почему происходит семплирование

Обрабатывать огромные массивы данных за максимально короткое время — непростая задача даже для Google. Чтобы снизить нагрузку на серверы и достичь баланса между скоростью и точностью обработки, Google Analytics анализирует лишь часть данных.

Как понять, что применялась выборка? Наведите курсор на значок щита в верхней части отчета, и вы увидите сообщение «Отчет создан на основе анализа N% от общего числа сеансов». Если цифра меньше 100%, значит данные семплированные.

Обычно это происходит, если количество сессий за выбранный период превышает 500 тыс. Однако стоит помнить, что семплирование зависит не только от количества сеансов в отчетах. Чем сложнее запрос, тем выше риск получить неточные данные. При этом в разных отчетах GA принцип выборки отличается.

Отчеты по умолчанию (Default Reports)

В стандартных отчетах из разделов «Аудитория», «Источники трафика», «Поведение» и «Конверсии» семплирование не применяется. Почему так происходит? Для каждого ресурса в Google Analytics сохраняется полный набор данных. В свою очередь, для каждого представления в ресурсе создаются агрегированные таблицы с комбинациями определенных параметров и показателей, взятых из полных данных. Информация в агрегированных таблицах обновляется ежедневно. Это значит, что показатели для параметров в отчетах по умолчанию уже рассчитаны, и построение отчета не займет много времени.

На скриншоте ниже стандартный отчет, основанный на полных данных без семплирования:

Быстрые отчеты (Ad-hoc Reports)

Когда вы вносите изменения в отчет по умолчанию: применяете сегмент, фильтр или добавляете параметр, Google Analytics отправляет запрос к данным в агрегированных таблицах. То же самое происходит при создании пользовательских отчетов с комбинациями параметров и показателей, которых нет в отчетах по умолчанию.

Если запрашиваемой информации нет в таблицах, GA обращается к необработанным данным. Если в выбранном периоде было больше 500 тыс. сессий, данные в отчете семплируются. Однако, в некоторых случаях семплирование в быстрых отчетах может применяться и на меньшем количестве сессий — это зависит от сложности запроса, используемых в отчете фильтров и сегментов.

Вот пример отчета на основе семплированных данных:

Визуализация переходов (Flow-visualization Reports)

В отчетах «Карта поведения», «Карта событий», «Карта целей», «Пути пользователей» и других картах переходов Google Analytics обрабатывает максимум 100 тыс. сессий. Выше этого порога данные всегда семплируются. Поскольку отчеты с визуализацией переходов и отчеты по умолчанию строятся на выборках разных размеров, одни и те же метрики в них могут не совпадать.

Так выглядит отчет «Карта целей», основанный на семплированных данных:

Отчеты по многоканальным последовательностям и атрибуции

В отчетах по многоканальным последовательностям и атрибуции (Multi-Channel Funnel and Attribution Reports) выборка не применяется, если вы не измените отчет каким-либо образом, например, добавив сегмент или параметр. В противном случае лимит семплирования составит 1 млн конверсий.

В чем минусы семплирования

Если размер выборки, скажем, 90% сессий, то информация в ваших отчетах, скорее всего, будет надежной. Однако чем ниже процент данных, используемый для анализа, тем менее точными будут результаты. Допустим, вы видите отчет, основанный на 1% от 100 сессий. Это значит, что Google Analytics проанализировал 1% сессий, умножил результат на 100 и выдал его в отчете. Насколько объективной будет ваша оценка, еслии 99% данных остались покрыты мраком? Вопрос риторический.

Не видя всей картины, вы не можете полностью доверять своим данным. Когда производитель зубной пасты утверждает, что 8 из 10 стоматологов рекомендуют ее как лучшую, откуда нам знать, сколько всего врачей опросили? Вдруг специально выбрали лояльных стоматологов, чтобы обеспечить нужное мнение. Ваш мозг читает «8 из 10» и интерпретирует это как 80%, хотя многое осталось за кадром. При семплировании Google Analytics работает так же.

Семплирование — небольшая проблема, если вы смотрите только на количество сессий. Однако, когда речь идет о показателях, связанных с деньгами, таких как цели, конверсии и доход, выборка может стоить вам целое состояние. Семплированные отчеты искажают показатели. Из-за этого вы рискуете не заметить рекламу, которая приносит прибыль, или наоборот — тратить деньги на неэффективные кампании.

Как избежать семплирования

Стоит ли бороться с семплированием, зависит от того, какой уровень погрешности вы допускаете в отчетах. Если вы считаете, что выборка стала проблемой, вот несколько советов, как ее избежать или минимизировать.

В интерфейсе Google Analytics

Начнем со способов, для которых не нужны дополнительные инструменты — вы можете обойти семплирование с помощью настроек в аккаунте Google Analytics.

1. Сократить отчетный период

Чем длиннее период в отчете, тем больше данных нужно обработать Google Analytics, и тем выше риск семплирования. И наоборот — за срок покороче можно получить более точные данные. Например, вам нужен отчет за полгода, но GA семплирует данные из-за высокого количества сессий. Если за месяц у вас в ресурсе собирается меньше 500 тыс. посещений, попробуйте просмотреть данные за каждый месяц и сложить результаты.

2. Не использовать быстрые отчеты

Иногда у аналитиков возникает соблазн использовать индивидуальные, быстрые отчеты, хотя зачастую ту же информацию можно посмотреть в отчетах по умолчанию. Как мы писали выше, в большинстве стандартных отчетов Google Analytics выборка не применяется. Это значит, что избегая сегменты и дополнительные параметры в отчетах, можно получить более точные цифры.

Например, вы хотите оценить объем органического трафика на сайт. Можно применить сегмент «Бесплатный трафик» в отчете «Страницы входа», а можно открыть стандартный отчет «Каналы» и посмотреть на органический трафик с основным параметром «Страницы входа». В первом случае данные могут семплироваться, а во втором вы увидите отчет на основе 100% сессий.

Следует упомянуть, что отчет по умолчанию за день может содержать максимум 50 тыс. строк. В быстрых отчетах этот лимит — 1 млн строк в день. Когда количество строк в отчетах превышает этот порог, то Google Analytics объединяет все оставшиеся данные в строку «Другие».

3. Настроить фильтры на уровне представления

Google Analytics семплирует данные после применения фильтров уровня представления. То есть выборка делается из сеансов, которые прошли через фильтр. Вы можете избежать семплирования, собирая в представлении только необходимые данные и отсекая все лишнее. Например, вы хотите увидеть, сколько посетителей зашли на сайт благодаря поисковым запросам, а использование сегмента «Бесплатный трафик» приводит к семплированию. В таком случае можно создать дублирующее представление и применить к нему фильтр, чтобы видеть только органический трафик:

Этот подход — не панацея для быстрых запросов, так как в них все еще может применяться выборка при больших объемах данных. Зато отчеты по умолчанию точно предоставят вам достоверную несемплированную информацию.

Обратите внимание, что не рекомендуется фильтровать данные по параметрам уровня страницы. Скажем, у вас Ecommerce-сайт с различными категориями продуктов и страницами. Если вы используете разные представления для каждого типа страницы, сессия одного пользователя может быть учтена в разных представлениях. Из-за этого общее количество сеансов может сильно завышаться.

Читайте также:  Когда более опасны клещи

4. Создать отдельный ресурс для каждого сайта

Общепринятая практика — отслеживать несколько сайтов в одном ресурсе Google Analytics и использовать фильтры, если нужно посмотреть на данные конкретного сайта. Чем больше данных вы собираете в одном ресурсе, тем выше риск получить отчет с выборкой. Если это ваш случай, используйте отдельный ресурс для каждого сайта. Это уменьшит объем трафика в ресурсе, а с ним — и риск семплирования.

Вне интерфейса Google Analytics

Также можно избежать семплирования, выгрузив данные из GA в Google BigQuery или Google Sheets. Имейте в виду, что невозможно извлечь необработанные демографические данные из Google Analytics, так как система их всегда агрегирует.

1. Использовать OWOX BI Pipeline

OWOX BI собирает данные в Google BigQuery непосредственно с сайта. Сервис не зависит от ограничений Google Analytics, что позволит вам строить отчеты без семплирования и по любым параметрам.

При этом OWOX BI использует структуру данных, совместимую со структурой Google Analytics, под которую написано множество примеров SQL-запросов. Это сэкономит время вашей команды на подготовку отчетов.

OWOX BI Pipeline Как получить несемплированные данные из Google Analytics

  • Просмотров: 94
  • 05 Декабря 2018

Собирая сырые данные с помощью OWOX BI, вы сможете:

  1. Строить отчеты без семплирования и ограничений. Сервис передает данные с сайта в Google BigQuery в полном объеме и в неагрегированном виде, а размер передаваемого хита увеличен до 16 КБ. Вы получите полную картину о действиях пользователей на вашем сайте.
  2. Передавать в BigQuery неограниченное количество кастомных параметров и показателей. Это позволит вам сегментировать пользователей по любому признаку и строить более глубокие отчеты для детального анализа.
  3. Анализировать данные в режиме реального времени. С OWOX BI вы быстрее сформируете триггерную рассылку или обнаружите проблемы на сайте, потому что данные о действиях пользователей появляются в вашем BigQuery проекте в течение 1-5 минут после того, как эти действия произошли.
  4. Сравнивать рентабельность когорт, лендингов и товарных групп. Сервис рассчитывает ценность каждой сессии. Благодаря этому вы сможете посчитать ROI/ROAS для новых и вернувшихся пользователей. Узнать, сколько вы тратите и сколько зарабатываете на каждой из групп товаров. Оценить эффективность рекламы для разных регионов, посадочных страниц, мобильных версий и приложений.
  5. Учесть выкупаемость заказов, возвраты после покупки или узнать, что делал новый подписчик на вашем сайте за последние 30 дней до регистрации. Сервис позволяет ретроспективно обновлять данные о расходах, пользователях и транзакциях, уже загруженные в Google BigQuery.
  6. Не переживать за качество и сохранность своих данных. OWOX BI ежедневно сравнивает данные в вашем BigQuery с информацией из Google Analytics и сообщает о значимых расхождениях. Это значит, что вы не потеряете никаких важных данных, чего не могут обеспечить сторонние трекеры. Также сервис автоматически сохраняет данные при сбоях в вашем GA и Google Cloud проекте и гарантирует в договоре соблюдение уровня качества сбора и обработки данных (SLA) выше 96%.
  7. Собирать персональные данные пользователей. В отличие от Google Analytics, в BigQuery вы можете собирать и использовать персональные данные клиентов, в том числе email и номера телефонов.

Подробнее о всех преимуществах сбора данных с сайта с помощью OWOX BI читайте в статье «Как обойти семплирование и собрать полные данные для продвинутой аналитики».

Вы можете бесплатно попробовать все возможности OWOX BI

2. Использовать Google Analytics API

Еще один способ решить проблему с семплированием — обращаться к данным программно через Reporting API. Да, ответы API могут содержать семплированные данные, если выбран длительный период времени. Однако API позволяет вам указать, сколько данных вы хотите получить в одном запросе, а также установить уровень семплирования. Если у сайта высокий трафик, вам понадобится выполнить сотни запросов, чтобы извлечь все данные без семплирования. API позволяет отправлять до 50 тыс. запросов в день на один проект и возвращает до 10 тыс. строк на запрос.

Недостаток этого подхода в том, что он отнимает много времени. Невозможно запускать тысячи ежедневных запросов вручную, поэтому для автоматизации процесса требуются навыки программирования. Кроме того, API позволяет получить максимум 7 параметров и 10 показателей в одном отчете:

При этом в запросе всегда должен быть хотя бы один показатель, и не все параметры можно запрашивать вместе. Узнать больше о Reporting API вы можете в руководстве Google для разработчиков.

3. Использовать аддон Google Analytics Spreadsheet

Официальный аддон позволяет автоматически и без программирования получать данные из Google Analytics в Google Sheets, рассчитывать новые параметры и метрики, строить отчеты и делиться им с партнерами и коллегами. У дополнения есть еще одно преимущество: с его помощью можно выгрузить до 9 параметров, что на 2 больше, чем через Reporting API.

Однако Google Analytics Spreadsheet имеет ограничение — 400 тыс. ячеек в одной таблице. Из-за чего выгрузить и обработать большие объемы данных не получится.

4. Перейти на Google Analytics 360

В платной версии Google Analytics предусмотрено несколько решений для борьбы с выборкой:

  • Высокий порог семплирования — 100 млн сессий на уровне представления. Это в 200 раз больше данных по сравнению с бесплатной версией.
  • «Полные отчеты» (Unsampled Reports), которые могут содержать до 3 млн уникальных строк данных. Полный отчет можно запускать разово при необходимости или по расписанию.
  • Специальные таблицы (Custom Tables) объемом до 1 млн строк в день, с помощью которых можно получить мгновенный доступ к несемплированным данным, сгруппированным по заданной комбинации параметров, показателей, сегментов и фильтров. Каждая таблица может содержать до 6 параметров, 25 показателей, 5 фильтров и 4 сегментов.

Благодаря высокому лимиту выборки в Google Analytics 360 ваши отчеты будут содержать полные данные:

Кроме того, Google Analytics 360 интегрирован с облачным хранилищем Google BigQuery. Это позволяет автоматически импортировать в хранилище несемплированные данные и за считанные секунды создавать отчеты любой структуры и сложности с помощью SQL-запросов. Также пользователи GA 360 ежемесячно получают купон на 500 $ для оплаты расходов в Google BigQuery.

Google Analytics 360 — это решение для крупного бизнеса, которое требует значительных вложений. О переходе на платную версию стоит задуматься, если ваш сайт получает более 10 млн хитов в месяц, семплирование постоянно искажает данные, а годовой доход позволяет инвестировать в лицензию. Подробнее о том, как рассчитывается стоимость GA 360, мы рассказали на вебинаре.

Подводя итоги, мы собрали в одну таблицу все способы обойти семплирование, их плюсы, минусы и рекомендуемый объем данных. Подберите решение, которое подойдет именно вам.

бонус для читателей

Сравнительная таблица: 8 способов избежать семплирования

А как вы решаете проблему семплирования? Делитесь идеями и оставляйте вопросы в комментариях.

Источник

Оцените статью
Избавляемся от вредителей