Анализ большого набора данных

Опубликовал: Thursday, September 1, 2024 в категории Поисковые системы | Пока нет комментариев

Помните списки ключевых фраз и значения запросов, которые загрузил Боб? А сейчас сделайте то же самое для своего сайта, возьмите все получившиеся списки и объедините их в один большой файл формата CSV. Также, если вы можете себе это позволить, а особенно если в вашем рыночном секторе высокая конкуренция, обратитесь к услугам компании Hitwise и загрузите список из нескольких тысяч запросов.

Отбор данных

Сначала уберите все лишние столбцы. Единственное, что вас сейчас должно интересовать, - это столбцы «Ключевые слова» и «Количество запросов», если мы говорим об инструменте подсказки ключевых слов Google (или «процент от общего числа посетителей» в данных компании Hitwise).

Следующая задача заключается в том, чтобы убрать все повторения во избежание их двойного подсчета. Вы же загрузили точные соответствия, правда? Отлично. Теперь, по всей вероятности, определенные строки будут повторяться, поэтому вам нужно их удалить. Если список небольшой, это можно сделать вручную, но файл, содержащий несколько тысяч строк, должен обрабатываться программой.

Существует несколько специализированных программ для этих целей, например CSV Easy, но можно осуществлять анализ и с помощью ряда программ, предназначенных для создания и ведения баз данных или электронных таблиц. Если вы применяете программу CSV Easy, просто откройте файл, щелкните по кнопке Deduplication (Дедупликация) на панели инструментов и выберите столбец, в котором будете удалять дублирующиеся данные. Не забудьте сохранить результат.

Мытье золота

Следующая задача - выявление шаблонов. Для этого необходимо просмотреть все случаи появления слова (или его части) среди полученных данных и суммировать результаты. Давайте посмотрим на два способа осуществления данной задачи.

Программа CSV Easy. Откройте файл формата CSV и щелкните по кнопке фильтра (на которой нарисована воронка) на панели инструментов. В диалоговом окне Filter (Фильтр) щелкните по кнопке Add (Добавить), чтобы добавить новое правило. Из раскрывающегося списка Column (Столбец) выберите вариант Keywords (Ключевые слова), а из списка Condition (Условие) - пункт Соntains (Содержит). В поле Value (значение) введите слово (или его часть), которое вас интересует. Например, если бы вы повторно искали одежду для женщин, то могли бы ввести жен, чтобы выбрать слова «женщин», «женщины», а также варианты написания этого слова с опечатками. Если вы хотите выбрать все варианты написания слова, можете в качестве условия указать вариант Regular expression (Регулярное выражение) и ввести в поле Value (регулярные выражения очень удобно применять для выявления тенденций, но эта книга посвящена несколько другим вопросам; дополнительную информацию. Щелкните по кнопке Data analysis (анализ данных) в строке меню, чтобы подытожить результаты.

Программа CSV Easy также предоставляет довольно неплохой интеллектуальный анализ текста. Благодаря ей у вас появляется возможность провести анализ частоты появления фразы, при этом вы получаете список фраз, состоящих из одного, двух, трех и четырех слов, которые будут расположены по частоте своего появления в данных. Также вы можете указать список синонимов для анализа. Например, вас могут интересовать шаблоны запросов на одежду для женщин, в этом случае укажите список синонимов к слову «женщины»: «девушки», «девочки», «дамы» и пр. Внимательное применение этой функции, наряду с функцией фильтра, - хороший способ анализа «длинного хвоста».

Программа Excel. Откройте файл формата CSV и сохраните его в формате Excel. Добавьте сверху новую строку. Впишите выбранное вами слово (или его часть) в ячейку справа от столбца «Количество запросов» (ячейку С2, если у вас только два столбца - «Ключевые слова» и «Количество запросов»). Далее следует формула: в ячейке СЗ введите -IF ( (ISNUMBER(FIND(C$2,$АЗ) ) )=TRUE,$ВЗ, О). Эта формула обозначает, что если поиск слова «саге» (уход) во фразе «goldfish саге» (уход за золотыми рыбками) выдает ошибку, то значение равно 0. Если поиск дает результат (любой результат), значение равно тому, что стоит в ячейке ВЗ (что бы в ней ни находилось) - в данном случае это 22 200. Далее формулу можно скопировать во все остальные ячейки данного столбца. Чтобы подытожить результат, введите =SUM(C3:C152) (если у вас всего 152 строчки данных) в ячейке С1. Скопируйте столбец С и вставьте его рядом, чтобы получилось несколько столбцов. Результат каждого из них будет подсчитан в верхней строчке, чтобы вы могли сразу сравнивать несколько слов.

В этом примере у нас 152 строки данных - показаны верхние 25. Вы можете тут же увидеть, что хотя поисковый запрос «goldfish diseases» («болезни золотых рыбок») люди вводили 12 100 раз, а каждый из запросов «fancy goldfish» (красивые золотые рыбки), «pond goldfish» (золотые рыбки в пруду) и «goldfish memory» (память золотой рыбки) - по 14 800 раз, слово «disease» (болезнь) фактически входит в 18 700 поисковых запросов, отраженных в этом наборе данных (появляется как в «goldfish disease», так и в «goldfish diseases»). Поэтому слово «disease» (болезнь) важнее, чем слова «fancy» (красивые), «pond» (пруд), «memory» (память) или «breed» (разведение).


Похожие посты:

Комментировать

Your email address will not be published. Required fields are marked *