Автоматизация наполнения статейников без денег

Навряд ли я сейчас открою глаза тем, кто занимается СЕО давно, но решил законспектировать свои мысли в блоге, чтобы они немного собрались в кучку из разрозненных кусков. Мне уже не первый человек сказал, мол, Дима, ты программист, используй свои сильные стороны — АВТОМАТИЗИРУЙ! А я всё такой — да не хочу, да мне мама запрещает автоматизировать и т.п. Но чем дальше, тем больше я думаю, что я действительно ошибаюсь. Как и в прошлой статьей про WordPress, в общем-то, но то будет тема отдельного поста.

Откуда траффик?

Как все догадываются,  но боялись сказать :), чтобы собрать траффик — нужно написать много статей на сайт. Причем, чем длиннее будет каждая статья, тем лучше. По крайней мере так считает Яндекс (или считал до недавнего времени). Полезность лонг-ридов с точки зрения пользователя — вопрос отдельный. При анализе конкурентов по одной из тематик я видел статьи такой адской длинны, что скролл буквально был малюсенький, а читать это было просто мучительно. Но это вопрос отдельный и буду считать, что лонг-риды все же полезны, по крайней мере пока что.

То есть источником привлечения (точкой входа) человека на сайт является сама статья, а не главная страница или страница рубрики. Это для нас важно, мы не интернет-магазин или лендинг продвигаем. Больше статей — больше траффик — больше денег. То есть отдаем себе отчет: нет статей — нет денег. И хотелось бы как-то наполнять сайты побыстрее и подешевле, в идеале — бесплатно.

Классика

Классический подход выглядит известным образом: собрать ключи, найти человека или людей, выдать им ключи и ждать готовый материал. Проблемы тут тоже известны: это долго и это дорого. Это может быть ужасно дорого, вот основная проблема. Если по-человечески написанная статья стоит хотя бы 250 рублей (что мало), то для 1000 статей нужно 250.000 рублей. Я даже не представляю какой наркоман готов себе это позволить, учитывая, что дальше идет продвижение, не менее затратная статья.

Может быть, нанимают школьников. Но я попробовал недавно. В своей массе писать не могут совершенно, тематику не знают и так далее. Давайте поставим вопрос иначе: если статья стоит 50 рублей, то для 1000 статей всё равно нужно очень много денег. На такие деньги, в общем-то, можно даже на телдери купить не самый поганый лот, который _уже_ работает.

И всё это занимает еще и время. У школьников тоже есть пропускная способность. А также не забываем, что никаких гарантий. Ну это нормально, но отсутствие гарантий за 50к только на контент — все же не для бедных парней вроде меня. Короче, мрак и ужОс.

Автоматизация получения контента

И я подумал, а почему бы не брать числом? То есть пропустить этап составления семантического ядра, т.к. мы не сможем под него писать, но зато сделать очень большое количество материалов? И, если сайт пойдет, уже из его дохода можно будет дописывать что-то точечно и вручную, все более приводя его к белому проекту.

Тут, опять же, раскрывают секрет Полишинеля. Почему бы к белым сайтам не подойти как к дорвеям? В конце-концов мне уже непонятно, чем статейники, МФА и прочий мусор отличаются от дорвеев, кроме того, что дорвеи должны вести куда-то еще, а тут реклама сразу же. Кажется, ничем. Дорвеи тоже прогрессируют, уже не ясно, что есть что.

Посему. Копипаста нас тоже не интересует. Но! Почему бы не ограбить пару-тройку сайтов на другом языке? В общем и целом схема выглядит так: пишем робота-паука, который ползает по сайту конкурента и выдирает только интересующие нас вещи (тайтл, дескрипшн, контент статьи, h1, url), выкидывает оттуда все ненужное (рекламу внутри статьи, навигационные ссылки и так далее) и сохраняет все в базу. Обходит сайт-источник автоматически, находя новые ссылки для посещения на самом же сайте, то есть ходит по внутренним ссылкам на сайте-источнике самостоятельно. Имеет какое-нибудь ограничение, если нужно спарсить только одну рубрику, например парсить только урлы начинающиеся с чего-то или парсить только ссылки открытые на таком-то урле (урле рубрики). Сохраняет картинки из статей для последующего использования.

Один раз настраиваем эту штуку, запускаем на сайт-источник. Через 2 часа получаем все статьи с сайта, грубо говоря.

Далее следующий этап. Прогоняем все статьи через гугл-переводчик. Помните кейс, когда какой-то парень спарсил весь stack overflow, выдал все это под соусом поисковика и _сразу же_ получил миллионы траффика? Я не помню точных цифр, но очень впечатлило. Тогда я прогнал через google translate разные тексты и должен сказать, что технические тексты переводятся просто идеально! Художественные — уже менее идеально, т.к. предложения строятся на разных языках по-разному. Но тем не менее, переводит очень и очень хорошо.

В общем, прогоняем все статьи через гугл-транслейт, теперь у нас есть практически готовая рабочая статья.

Все-таки придется нанять пару человек

Далее следует этап доводки. Тут огромный плюс в том, что доводка практически не занимает время. Не нужно ничего переводить, рерайтить или как-то надрываться. Достаточно прочитать текст и поправить те места, где звучит подозрительно не по-русски. Это может сделать уже практически любой человек, у которого хотя бы одна извилина есть. И можно нанять школьников хоть по 5 рублей за статью. По крайней мере я так думаю, еще не пробовал. Но в любом случае цена такой работы отличается на порядки от цены на копирайт и на порядок от цены на рерайт, ибо и рерайтить нужно только кусочки, а в основном — читать.

Собственно, на этом мысль почти обрывается. Давайте поговорим о лонг-ридах, раз уж начали в начале.

Лонг риды

Очевидно, что если у нас есть две статьи, то можно перемешать их, сделав из двух одну, но длинную. Перемешиваем четыре-пять статей и вуаля — у нас лонг-рид. Но мне не давала покоя мысль: а как именно перемешивать? Можно ли взять случайные абзацы и вставить в случайное место другой статьи? Насколько читаемым это будет?

По итогу я пришел к следующей идее, которая еще не кажется мне окончательной. Можно вообще ничего не перемешивать. Берем одну статью и совмещаем ее со статьей, похожей по смыслу. Например, у нас есть три статьи: «чем кормить кошку», «чем питаются кошки в дикой природе» и «корма для кошек». Сначала ставим статью 2 (как бы вводная), за ней статью 1 (основная нагрузка) и потом статью 3 (как бы заключение). Можно так же прогонять это через редактора-за-копейки, с указанием, что там произошло, чтобы он убирал вводные части всех статей, кроме первых и трижды повторившееся вступление не удивляло пользователей (хотя кому какое до них дело, да? сарказм вызван просмотром конкурентов).

Программный комплекс

Окей. И самое приятное, всё это можно (и нужно) засунуть в один программный комплекс. Всё достаточно просто: нужна возможность заводить проекты, где описывается откуда и что именно мы парсим. К проекту привязаны статьи. И у статьи есть состояние — спарсена, отбракована, на перевод, переведена, на рерайт, готова. После получения статьи с сайта-источника она становится «спарсена», если не подходит по каким-то причинам, то «отбракована» (не удалена! мы же не разбрасываемся деньгами!). Все статьи, которые помечены как «на перевод» кликом одной кнопки массово прогоняются через google translate и мы получаем переведенную статью. Далее она отправляется на рерайт. Тут тоже можно автоматизировать, только нужно добавить пользователей в проект. Собственно, можно даже вести баланс заработанного ими бабла прямо в этом же проекте, вести стату, кто и что перевел и так далее. После всех манипуляций она становится «готова», после чего можно создать дамп статей из всех готовых статей, например, для WordPress и тремя кликами вгрузить это на новый сайт.

По аналогии легко и непринужденно можно автоматически составлять лонг-риды. Отмечаешь несколько статей, одним кликом соединяешь их. Возможно, нужен промежуточный шаг — указать, в какой последовательности.

Отдельно хочу заметить, что с моего последнего подобного опыта, когда ты должен был писать все сам, уже есть очень много готовых решений. Для парсинга можно использовать symfony crawler. Он позволяет указать jQuery-подобный селектор того, что нужно. То есть там ПРОСТО нужно задать, что из всей страницы мне нужны только элементы «body > div.article» и он сам вытащит оттуда содержимое. Аналогично можно почистить его от мусора, сказав, что мне не нужны там body > div.article > .adsense и он удалит эти блоки. Это просто волшебство какое-то, раньше такого не было.

Для гугл транслейта тоже есть готовые решения, непосредственно от google или как независимая разработка для вашего фреймворка на github. Решения есть и для добавления пользователей, разграничения прав, для запуска PHP-скрипта паука-сборщика в фоновом режиме по клику из веб-морды. В общем! Почти всё уже сделано, надо только правильно скомпоновать это и дописать промежуточный функционал.

Если кому-то интересно, сейчас я как раз занят созданием такой фиговины. В первой ревизии не будет свистелок и перделок, скорее всего, не будет даже веб-морды, ибо не нужна пока что. По крайней мере, я уже могу автоматически обходить сайт и автоматически дергать контент. Следующим шагом будет отправка это на перевод.

Как думаете, сработает?

Интересно ваше мнение. Я несколько раз подчеркивал в статье, что не открыл ничего нового. Это скорее я теперь тут новичок и мне в голову приходят банальные идеи. Тем не менее, я не вижу вариантов, почему это может не сработать. Часть сайтов, которые я вижу в выдаче (яндекса) уже сделаны по такому способу — просто переводы, даже без правок. А вы как думаете, в чем я ошибаюсь и почему может не получиться?