Fazendo mais com menos: geração de conteúdo automatizada e de alta qualidade

Publicados: 2020-12-12

Como você continua a entregar resultados surpreendentes com tempo e recursos limitados?

Escrever conteúdo de qualidade que eduque e convença ainda é uma maneira infalível de atingir seus objetivos de tráfego e conversão.

Mas o processo é um trabalho manual árduo que não escala.

Felizmente, os últimos avanços em Compreensão e Geração de Linguagem Natural oferecem alguns resultados promissores e estimulantes.

Para sua sessão SEJ eSummit, Hamlet Batista discutiu o que é possível agora usando exemplos práticos (e código) que profissionais de SEO podem seguir e adaptar para seus negócios.

Aqui está uma recapitulação de sua apresentação.

Geração automatizada de conteúdo de alta qualidade

Sugestões de preenchimento automático

Quantas vezes você já encontrou isso?

Você começa a digitar no Gmail e o Google automaticamente completa toda a parte e é super preciso.

Você sabe, é realmente fascinante, mas ao mesmo tempo, pode ser muito assustador.

Você já pode estar usando a tecnologia de IA em seu trabalho, mesmo sem perceber.

Preenchimento automático do Gmail

Se você estiver usando o recurso de escrita inteligente do Google Docs, Gmail, ou mesmo Microsoft Word e Outlook, você já está aproveitando esta tecnologia.

Propaganda
Continue lendo abaixo

Isso faz parte do seu dia como profissional de marketing quando você se comunica com os clientes.

O bom é que essa tecnologia não é acessível apenas ao Google.

Confira o site Write With Transformer, comece a digitar e pressione a tecla tab para obter ideias de frases completas.

Batista demonstrou como, após inserir o título e uma frase de um artigo recente da SEJ, a máquina pode começar a gerar linhas - basta clicar no comando de preenchimento automático.

Escreva com Transformer

Todo o texto destacado acima foi totalmente gerado por um computador.

Propaganda
Continue lendo abaixo

O legal disso tudo é que a tecnologia que torna isso possível está disponível gratuitamente e acessível para quem quiser usá-la.

Pesquisas baseadas em intenções

Uma das mudanças que estamos vendo agora no SEO é a transição para pesquisas baseadas em intenção.

Como Mindy Weinstein coloca em seu artigo do Search Engine Journal, How to Go Deep with Keyword Research:

“Estamos em uma era em que as pesquisas baseadas na intenção são mais importantes para nós do que o puro volume.”

“Você deve dar um passo extra para aprender as perguntas que os clientes estão fazendo e como eles descrevem seus problemas.”

“Vá das palavras-chave às perguntas”

Essa mudança traz uma oportunidade para nós quando estamos escrevendo conteúdo.

A oportunidade

Os motores de busca são motores de resposta nos dias de hoje.

E uma maneira eficaz de escrever conteúdo original e popular é responder às perguntas mais importantes do seu público-alvo.

Dê uma olhada neste exemplo para a consulta “python for seo”.

O primeiro resultado mostra que podemos aproveitar o conteúdo que responde a perguntas, neste caso usando o esquema FAQ.

Propaganda
Continue lendo abaixo

Os trechos de pesquisa do FAQ ocupam mais espaço nas SERPs.

python para seo

No entanto, fazer isso manualmente para cada conteúdo que você vai criar pode ser caro e demorado.

Mas e se pudermos automatizá-lo aproveitando a IA e os ativos de conteúdo existentes?

Aproveitando o conhecimento existente

A maioria das empresas estabelecidas já possui bases de conhecimento proprietárias valiosas que desenvolveram ao longo do tempo apenas por meio de interações normais com os clientes.

Propaganda
Continue lendo abaixo

Muitas vezes, eles ainda não estão disponíveis publicamente (e-mails de suporte, chats, wikis internos).

Open Source AI + Conhecimento Proprietário

Por meio de uma técnica chamada “Transfer Learning”, podemos produzir conteúdo original e de qualidade combinando bases de conhecimento proprietárias e modelos e conjuntos de dados públicos de deep learning.

Aprendizagem por transferência

Existem diferenças entre o aprendizado de máquina tradicional (ML) e o aprendizado profundo.

No ML tradicional, você basicamente faz classificações e aproveita o conhecimento existente para fazer as previsões.

Propaganda
Continue lendo abaixo

Agora, com o aprendizado profundo, você pode acessar o conhecimento de senso comum que foi construído ao longo do tempo por grandes empresas como Google, Facebook, Microsoft e outras.

Durante a sessão, Batista demonstrou como isso pode ser feito.

Como automatizar a geração de conteúdo

Abaixo estão as etapas a serem executadas ao revisar as abordagens automatizadas de geração de perguntas e respostas.

  • Obtenha perguntas populares usando ferramentas online.
  • Responda-as usando duas abordagens de NLG:
    • Uma abordagem de pesquisa abrangente.
    • Uma abordagem de “livro fechado”.
  • Adicione o esquema de FAQ e valide usando o SDTT.

Sourcing Popular Questions

Encontrar perguntas populares com base em suas palavras-chave não é um grande desafio, pois existem ferramentas gratuitas que você pode usar para fazer isso.

Propaganda
Continue lendo abaixo

Responder ao público

Basta digitar uma palavra-chave e você poderá obter muitas perguntas que os usuários estão fazendo.

Responder ao público

Analisador de perguntas por BuzzSumo

Eles agregam informações de fóruns e outros lugares. Você também pode encontrar mais perguntas do tipo cauda longa.

Analisador de perguntas por BuzzSumo

AlsoAsked.com

Essa ferramenta elimina as perguntas que as pessoas também fazem do Google.

AlsoAsked.com

Sistema de perguntas e respostas

O Algoritmo

Papers With Codes é uma grande fonte de pesquisa de ponta sobre como responder a perguntas.

Propaganda
Continue lendo abaixo

Ele permite que você acesse livremente as pesquisas mais recentes que estão sendo publicadas.

Acadêmicos e pesquisadores postam suas pesquisas para que possam obter feedback de seus colegas.

Eles estão sempre se desafiando para criar um sistema melhor.

O que é mais interessante é que até pessoas como nós podem acessar o código de que precisaremos para responder às perguntas.

Para esta tarefa, vamos usar T5, ou Text-to-Text Transfer Transformer.

O conjunto de dados

Também precisamos dos dados de treinamento que o sistema vai usar para aprender a responder às perguntas.

O Stanford Question Answer Dataset 2.0 (SQuAD 2.0) é o conjunto de dados de compreensão de leitura mais popular.

SQuAD 2.0

Agora que temos o conjunto de dados e o código, vamos falar sobre as duas abordagens que podemos usar.

Propaganda
Continue lendo abaixo
  • Resposta a perguntas de livro aberto : você sabe onde está a resposta.
  • Resposta a perguntas em livro fechado : Você não sabe onde está a resposta.

Abordagem # 1: Uma Abordagem de Pesquisa por Extensão (Livro Aberto)

Com três linhas de código simples, podemos fazer com que o sistema responda às nossas perguntas.

Isso é algo que você pode fazer no Google Colab.

Crie um bloco de notas Colab e digite o seguinte:

 !pip install transformers from transformers import pipeline
 # Allocate a pipeline for question-answering nlp = pipeline('question-answering')
 nlp({    'question': 'What is the name of the repository ?',    'context': 'Pipeline have been included in the huggingface/transformers repository' })

Quando você digita o comando - fornecendo uma pergunta, bem como o contexto que você acha que tem a resposta para a pergunta - você verá que o sistema basicamente fará uma busca pela string que tem a resposta.

{'answer': 'huggingface/transformers',
'end': 59,
'score': 0.5135626548884602,
'start': 35}

As etapas são simples:

  • Carregue a biblioteca Transformers NLP.
  • Alocar um pipeline de resposta a perguntas.
  • Forneça a pergunta e o contexto (conteúdo / texto com maior probabilidade de incluir a resposta).
Propaganda
Continue lendo abaixo

Então, como você obterá o contexto?

Com algumas linhas de código.

 !pip install requests-html from requests_html import HTMLSession session = HTMLSession() url = "https://www.searchenginejournal.com/uncover-powerful-data-stories-phyton/328471/" selector = "#post-328471 > div:nth-child(2) > div > div > div.sej-article-content.gototop-pos" with session.get(url) as r: post = r.html.find(selector, first=True) text = post.text

Usando a biblioteca HTML de solicitação, você pode obter o URL - o que equivale a navegar no navegador até o URL - e fornecer um seletor (que é o caminho do elemento do bloco de texto na página).

Eu deveria simplesmente fazer uma chamada para puxar o conteúdo e adicioná-lo ao texto - e isso se torna o meu contexto.

Nesse caso, vamos fazer uma pergunta que está incluída em um artigo SEJ.

Isso significa que sabemos onde está a resposta. Estamos fornecendo o artigo que tem a resposta.

Mas e se não soubermos que artigo contém a resposta que estamos tentando perguntar?

Abordagem # 2: Explorando os limites de NLG com T5 e Turing-NLG (livro fechado)

O T5 do Google (modelo de 11 bilhões de parâmetros) e o TuringNG da Microsoft (modelo de 17 bilhões de parâmetros) são capazes de responder a perguntas sem fornecer qualquer contexto.

Propaganda
Continue lendo abaixo

Eles são tão grandes que conseguem manter a memória de muitas coisas durante o treinamento.

A equipe T5 do Google enfrentou o modelo de parâmetros de 11 bilhões em um desafio de trivialidades de pub e perdeu.

Vamos ver como é simples treinar T5 para responder às nossas próprias questões arbitrárias.

Neste exemplo, uma das perguntas que Batista fez foi “Quem é o melhor SEO do mundo?”

T5 respondendo perguntas T5 respondendo a perguntas arbitrárias.

O melhor SEO do mundo, segundo um modelo que foi treinado pelo Google, é o SEOmoz.

SEOmoz - melhor SEO de acordo com T5

Propaganda
Continue lendo abaixo

Como treinar, ajustar e alavancar o T5

Treinamento T5

Vamos treinar o modelo de parâmetro de 3 bilhões usando uma TPU gratuita do Google Colab.

Aqui está o plano técnico para usar o T5:

  • Copie o exemplo de notebook Colab para o seu Google Drive.

Copie o Notebook Colab para o seu Google Drive

  • Altere o ambiente de execução para Cloud TPU.

Altere o Runtime Environment para Cloud TPU

Altere o Runtime Environment para Cloud TPU

  • Crie um intervalo do Google Cloud Storage (use os $ 300 grátis em créditos).

Crie um intervalo do Google Cloud Storage

  • Fornece o caminho do balde para o notebook.

Fornece o caminho do intervalo para o notebook

  • Selecione o modelo de parâmetros de 3 bilhões.

Selecione o Modelo de Parâmetros de 3 bilhões

  • Execute as células restantes até a etapa de previsão.

Execute as células restantes até a etapa de previsão

E agora você tem um modelo que pode realmente responder a perguntas.

Mas como adicionamos seu conhecimento proprietário para que ele possa responder a perguntas em seu domínio ou setor de seu site?

Propaganda
Continue lendo abaixo

Adicionando novos conjuntos de dados de treinamento proprietários

É aqui que entramos na etapa de ajuste fino.

Basta clicar na opção Ajuste fino no modelo.

Sintonia fina

E há alguns exemplos no código de como criar novas funcionalidades e como fornecer novos recursos ao modelo.

Lembrar de:

  • Pré-processe sua base de conhecimento proprietária em um formato que funcione com o T5.
  • Adapte o código existente para este propósito (Perguntas naturais, TriviaQA).

Para aprender o processo de extração, transformação e carregamento do aprendizado de máquina, leia o artigo do Batista's Search Engine Journal, Uma introdução prática ao aprendizado de máquina para profissionais de SEO.

Propaganda
Continue lendo abaixo

Adicionando Esquema de FAQ

Esta etapa é direta.

Basta acessar a documentação do Google para ver as perguntas frequentes: marque suas perguntas frequentes com dados estruturados.

Google Developers - marcação de perguntas frequentes

Adicione a estrutura JSON-LD para isso.

JSON-LD FAQ

Você quer fazer isso automaticamente?

Batista também escreveu um artigo sobre isso: Uma introdução prática ao JavaScript moderno para SEOs.

Com JavaScript, você deve ser capaz de gerar este JSON-LD.

Recursos para aprender mais:

  • Introdução ao Python para SEOs
  • Introdução ao aprendizado de máquina para SEOs
  • Aproveite os modelos SOTA com uma linha de código
  • Explorando Transfer Learning com T5
  • Aprendizado profundo sobre esteróides com o poder da transferência de conhecimento
  • MarketMuse First Draft
Propaganda
Continue lendo abaixo

Veja esta apresentação

Agora você pode assistir a apresentação completa de Batista no SEJ eSummit em 2 de junho.


Créditos de imagem

Imagem em destaque: Paulo Bobita
Todas as capturas de tela feitas pelo autor, julho de 2020