Fazendo mais com menos: geração de conteúdo automatizada e de alta qualidade
Publicados: 2020-12-12Como você continua a entregar resultados surpreendentes com tempo e recursos limitados?
Escrever conteúdo de qualidade que eduque e convença ainda é uma maneira infalível de atingir seus objetivos de tráfego e conversão.
Mas o processo é um trabalho manual árduo que não escala.
Felizmente, os últimos avanços em Compreensão e Geração de Linguagem Natural oferecem alguns resultados promissores e estimulantes.
Para sua sessão SEJ eSummit, Hamlet Batista discutiu o que é possível agora usando exemplos práticos (e código) que profissionais de SEO podem seguir e adaptar para seus negócios.
Aqui está uma recapitulação de sua apresentação.
Sugestões de preenchimento automático
Quantas vezes você já encontrou isso?
Eu sou o único que às vezes fica assustado com o quão específicos e relevantes são os documentos do Google e as sugestões do Gmail?
Você está escrevendo um texto e [esta parte inteira pode ser sugerida].
Quer dizer, é ótimo. Mas é assustador. 🤪😱
- Kristina Azarenko 📈 (@azarchick) 11 de maio de 2020
Você começa a digitar no Gmail e o Google automaticamente completa toda a parte e é super preciso.
Você sabe, é realmente fascinante, mas ao mesmo tempo, pode ser muito assustador.
Você já pode estar usando a tecnologia de IA em seu trabalho, mesmo sem perceber.
Se você estiver usando o recurso de escrita inteligente do Google Docs, Gmail, ou mesmo Microsoft Word e Outlook, você já está aproveitando esta tecnologia.
Isso faz parte do seu dia como profissional de marketing quando você se comunica com os clientes.
O bom é que essa tecnologia não é acessível apenas ao Google.
Confira o site Write With Transformer, comece a digitar e pressione a tecla tab para obter ideias de frases completas.
Batista demonstrou como, após inserir o título e uma frase de um artigo recente da SEJ, a máquina pode começar a gerar linhas - basta clicar no comando de preenchimento automático.
Todo o texto destacado acima foi totalmente gerado por um computador.
O legal disso tudo é que a tecnologia que torna isso possível está disponível gratuitamente e acessível para quem quiser usá-la.
Pesquisas baseadas em intenções
Uma das mudanças que estamos vendo agora no SEO é a transição para pesquisas baseadas em intenção.
Como Mindy Weinstein coloca em seu artigo do Search Engine Journal, How to Go Deep with Keyword Research:
“Estamos em uma era em que as pesquisas baseadas na intenção são mais importantes para nós do que o puro volume.”
“Você deve dar um passo extra para aprender as perguntas que os clientes estão fazendo e como eles descrevem seus problemas.”
“Vá das palavras-chave às perguntas”
Essa mudança traz uma oportunidade para nós quando estamos escrevendo conteúdo.
A oportunidade
Os motores de busca são motores de resposta nos dias de hoje.
E uma maneira eficaz de escrever conteúdo original e popular é responder às perguntas mais importantes do seu público-alvo.
Dê uma olhada neste exemplo para a consulta “python for seo”.
O primeiro resultado mostra que podemos aproveitar o conteúdo que responde a perguntas, neste caso usando o esquema FAQ.
Os trechos de pesquisa do FAQ ocupam mais espaço nas SERPs.
No entanto, fazer isso manualmente para cada conteúdo que você vai criar pode ser caro e demorado.
Mas e se pudermos automatizá-lo aproveitando a IA e os ativos de conteúdo existentes?
Aproveitando o conhecimento existente
A maioria das empresas estabelecidas já possui bases de conhecimento proprietárias valiosas que desenvolveram ao longo do tempo apenas por meio de interações normais com os clientes.
Muitas vezes, eles ainda não estão disponíveis publicamente (e-mails de suporte, chats, wikis internos).
Open Source AI + Conhecimento Proprietário
Por meio de uma técnica chamada “Transfer Learning”, podemos produzir conteúdo original e de qualidade combinando bases de conhecimento proprietárias e modelos e conjuntos de dados públicos de deep learning.
Existem diferenças entre o aprendizado de máquina tradicional (ML) e o aprendizado profundo.
No ML tradicional, você basicamente faz classificações e aproveita o conhecimento existente para fazer as previsões.
Agora, com o aprendizado profundo, você pode acessar o conhecimento de senso comum que foi construído ao longo do tempo por grandes empresas como Google, Facebook, Microsoft e outras.
Durante a sessão, Batista demonstrou como isso pode ser feito.
Como automatizar a geração de conteúdo
Abaixo estão as etapas a serem executadas ao revisar as abordagens automatizadas de geração de perguntas e respostas.
- Obtenha perguntas populares usando ferramentas online.
- Responda-as usando duas abordagens de NLG:
- Uma abordagem de pesquisa abrangente.
- Uma abordagem de “livro fechado”.
- Adicione o esquema de FAQ e valide usando o SDTT.
Sourcing Popular Questions
Encontrar perguntas populares com base em suas palavras-chave não é um grande desafio, pois existem ferramentas gratuitas que você pode usar para fazer isso.
Responder ao público
Basta digitar uma palavra-chave e você poderá obter muitas perguntas que os usuários estão fazendo.
Analisador de perguntas por BuzzSumo
Eles agregam informações de fóruns e outros lugares. Você também pode encontrar mais perguntas do tipo cauda longa.
AlsoAsked.com
Essa ferramenta elimina as perguntas que as pessoas também fazem do Google.
Sistema de perguntas e respostas
O Algoritmo
Papers With Codes é uma grande fonte de pesquisa de ponta sobre como responder a perguntas.
Ele permite que você acesse livremente as pesquisas mais recentes que estão sendo publicadas.
Acadêmicos e pesquisadores postam suas pesquisas para que possam obter feedback de seus colegas.
Eles estão sempre se desafiando para criar um sistema melhor.
O que é mais interessante é que até pessoas como nós podem acessar o código de que precisaremos para responder às perguntas.
Para esta tarefa, vamos usar T5, ou Text-to-Text Transfer Transformer.
O conjunto de dados
Também precisamos dos dados de treinamento que o sistema vai usar para aprender a responder às perguntas.
O Stanford Question Answer Dataset 2.0 (SQuAD 2.0) é o conjunto de dados de compreensão de leitura mais popular.
Agora que temos o conjunto de dados e o código, vamos falar sobre as duas abordagens que podemos usar.
- Resposta a perguntas de livro aberto : você sabe onde está a resposta.
- Resposta a perguntas em livro fechado : Você não sabe onde está a resposta.
Abordagem # 1: Uma Abordagem de Pesquisa por Extensão (Livro Aberto)
Com três linhas de código simples, podemos fazer com que o sistema responda às nossas perguntas.
Isso é algo que você pode fazer no Google Colab.
Crie um bloco de notas Colab e digite o seguinte:
!pip install transformers from transformers import pipeline
# Allocate a pipeline for question-answering nlp = pipeline('question-answering')
nlp({ 'question': 'What is the name of the repository ?', 'context': 'Pipeline have been included in the huggingface/transformers repository' })
Quando você digita o comando - fornecendo uma pergunta, bem como o contexto que você acha que tem a resposta para a pergunta - você verá que o sistema basicamente fará uma busca pela string que tem a resposta.
{'answer': 'huggingface/transformers',
'end': 59,
'score': 0.5135626548884602,
'start': 35}
As etapas são simples:
- Carregue a biblioteca Transformers NLP.
- Alocar um pipeline de resposta a perguntas.
- Forneça a pergunta e o contexto (conteúdo / texto com maior probabilidade de incluir a resposta).
Então, como você obterá o contexto?
Com algumas linhas de código.
!pip install requests-html from requests_html import HTMLSession session = HTMLSession() url = "https://www.searchenginejournal.com/uncover-powerful-data-stories-phyton/328471/" selector = "#post-328471 > div:nth-child(2) > div > div > div.sej-article-content.gototop-pos" with session.get(url) as r: post = r.html.find(selector, first=True) text = post.text
Usando a biblioteca HTML de solicitação, você pode obter o URL - o que equivale a navegar no navegador até o URL - e fornecer um seletor (que é o caminho do elemento do bloco de texto na página).
Eu deveria simplesmente fazer uma chamada para puxar o conteúdo e adicioná-lo ao texto - e isso se torna o meu contexto.
Nesse caso, vamos fazer uma pergunta que está incluída em um artigo SEJ.
Isso significa que sabemos onde está a resposta. Estamos fornecendo o artigo que tem a resposta.
Mas e se não soubermos que artigo contém a resposta que estamos tentando perguntar?
Abordagem # 2: Explorando os limites de NLG com T5 e Turing-NLG (livro fechado)
O T5 do Google (modelo de 11 bilhões de parâmetros) e o TuringNG da Microsoft (modelo de 17 bilhões de parâmetros) são capazes de responder a perguntas sem fornecer qualquer contexto.
Eles são tão grandes que conseguem manter a memória de muitas coisas durante o treinamento.
A equipe T5 do Google enfrentou o modelo de parâmetros de 11 bilhões em um desafio de trivialidades de pub e perdeu.
Vamos ver como é simples treinar T5 para responder às nossas próprias questões arbitrárias.
Neste exemplo, uma das perguntas que Batista fez foi “Quem é o melhor SEO do mundo?”
O melhor SEO do mundo, segundo um modelo que foi treinado pelo Google, é o SEOmoz.
Como treinar, ajustar e alavancar o T5
Treinamento T5
Vamos treinar o modelo de parâmetro de 3 bilhões usando uma TPU gratuita do Google Colab.
Aqui está o plano técnico para usar o T5:
- Copie o exemplo de notebook Colab para o seu Google Drive.
- Altere o ambiente de execução para Cloud TPU.
- Crie um intervalo do Google Cloud Storage (use os $ 300 grátis em créditos).
- Fornece o caminho do balde para o notebook.
- Selecione o modelo de parâmetros de 3 bilhões.
- Execute as células restantes até a etapa de previsão.
E agora você tem um modelo que pode realmente responder a perguntas.
Mas como adicionamos seu conhecimento proprietário para que ele possa responder a perguntas em seu domínio ou setor de seu site?
Adicionando novos conjuntos de dados de treinamento proprietários
É aqui que entramos na etapa de ajuste fino.
Basta clicar na opção Ajuste fino no modelo.
E há alguns exemplos no código de como criar novas funcionalidades e como fornecer novos recursos ao modelo.
Lembrar de:
- Pré-processe sua base de conhecimento proprietária em um formato que funcione com o T5.
- Adapte o código existente para este propósito (Perguntas naturais, TriviaQA).
Para aprender o processo de extração, transformação e carregamento do aprendizado de máquina, leia o artigo do Batista's Search Engine Journal, Uma introdução prática ao aprendizado de máquina para profissionais de SEO.
Adicionando Esquema de FAQ
Esta etapa é direta.
Basta acessar a documentação do Google para ver as perguntas frequentes: marque suas perguntas frequentes com dados estruturados.
Adicione a estrutura JSON-LD para isso.
Você quer fazer isso automaticamente?
Batista também escreveu um artigo sobre isso: Uma introdução prática ao JavaScript moderno para SEOs.
Com JavaScript, você deve ser capaz de gerar este JSON-LD.
Recursos para aprender mais:
- Introdução ao Python para SEOs
- Introdução ao aprendizado de máquina para SEOs
- Aproveite os modelos SOTA com uma linha de código
- Explorando Transfer Learning com T5
- Aprendizado profundo sobre esteróides com o poder da transferência de conhecimento
- MarketMuse First Draft
Veja esta apresentação
Agora você pode assistir a apresentação completa de Batista no SEJ eSummit em 2 de junho.
Créditos de imagem
Imagem em destaque: Paulo Bobita
Todas as capturas de tela feitas pelo autor, julho de 2020