Faire plus avec moins: génération de contenu automatisée et de haute qualité
Publié: 2020-12-12Comment continuez-vous à fournir des résultats étonnants avec un temps et des ressources limités?
La rédaction d'un contenu de qualité qui éduque et persuade reste un moyen infaillible d'atteindre vos objectifs de trafic et de conversion.
Mais le processus est un travail manuel ardu et sans échelle.
Heureusement, les dernières avancées en matière de compréhension et de génération du langage naturel offrent des résultats prometteurs et passionnants.
Pour sa session SEJ eSummit, Hamlet Batista a discuté de ce qui est possible à l'heure actuelle en utilisant des exemples pratiques (et du code) que les professionnels du référencement technique peuvent suivre et adapter à leur entreprise.
Voici un récapitulatif de sa présentation.
Suggestions de saisie semi-automatique
Combien de fois avez-vous rencontré cela?
Suis-je le seul à avoir parfois peur de la spécificité et de la pertinence des suggestions Google doc et Gmail?
Vous écrivez un texte et [toute cette partie peut être suggérée].
Je veux dire, c'est génial. Mais c'est effrayant. 🤪😱
- Kristina Azarenko 📈 (@azarchick) 11 mai 2020
Vous commencez à taper sur Gmail et Google complète automatiquement toute la partie et c'est super précis.
Vous savez, c'est vraiment fascinant, mais en même temps, ça peut être vraiment effrayant.
Vous utilisez peut-être déjà la technologie de l'IA dans votre travail sans même que vous vous en rendiez compte.
Si vous utilisez la fonctionnalité de composition intelligente de Google Docs, Gmail ou même Microsoft Word et Outlook, vous utilisez déjà cette technologie.
Cela fait partie de votre journée en tant que spécialiste du marketing lorsque vous communiquez avec les clients.
La grande chose est que cette technologie n'est pas seulement accessible à Google.
Consultez le site Web Écrire avec Transformer, commencez à taper et appuyez sur la touche de tabulation pour des idées de phrases complètes.
Batista a démontré qu'après avoir branché le titre et une phrase d'un article récent de SEJ, la machine peut commencer à générer des lignes - il vous suffit d'appuyer sur la commande de saisie semi-automatique.
Tout le texte en surbrillance ci-dessus a été entièrement généré par un ordinateur.
Ce qui est cool à ce sujet, c'est que la technologie qui rend cela possible est disponible gratuitement et accessible à quiconque souhaite l'utiliser.
Recherches basées sur l'intention
L'un des changements que nous constatons actuellement dans le domaine du référencement est la transition vers les recherches basées sur l'intention.
Comme Mindy Weinstein le dit dans son article du Search Engine Journal, Comment approfondir la recherche de mots-clés:
"Nous sommes à une époque où les recherches basées sur l'intention sont plus importantes pour nous que le volume pur."
«Vous devez faire un pas supplémentaire pour connaître les questions que les clients se posent et comment ils décrivent leurs problèmes.»
"Passez des mots clés aux questions"
Ce changement nous offre une opportunité lorsque nous écrivons du contenu.
L'opportunité
Les moteurs de recherche répondent aux moteurs de nos jours.
Et un moyen efficace d'écrire du contenu original et populaire est de répondre aux questions les plus importantes de votre public cible.
Jetez un œil à cet exemple pour la requête «python for seo».
Le premier résultat montre que nous pouvons tirer parti du contenu qui répond aux questions, dans ce cas en utilisant le schéma FAQ.
Les extraits de recherche de FAQ prennent plus de place dans les SERPs.
Cependant, faire cela manuellement pour chaque élément de contenu que vous allez créer peut être coûteux et prendre du temps.
Mais que se passerait-il si nous pouvions l'automatiser en tirant parti de l'IA et des ressources de contenu existantes?
Tirer parti des connaissances existantes
La plupart des entreprises bien établies disposent déjà de bases de connaissances précieuses et exclusives qu'elles ont développées au fil du temps simplement par des interactions normales avec les clients.
Plusieurs fois, ceux-ci ne sont pas encore disponibles publiquement (e-mails de support, chats, wikis internes).
IA Open Source + connaissances exclusives
Grâce à une technique appelée «Transfer Learning», nous pouvons produire un contenu original et de qualité en combinant des bases de connaissances propriétaires et des modèles et des ensembles de données publics d'apprentissage en profondeur.
Il existe des différences entre l'apprentissage automatique (ML) traditionnel et l'apprentissage en profondeur,.
Dans le ML traditionnel, vous effectuez principalement des classifications et tirez parti des connaissances existantes pour élaborer des prédictions.
Désormais, avec l'apprentissage en profondeur, vous pouvez exploiter les connaissances de bon sens qui ont été développées au fil du temps par de grandes entreprises comme Google, Facebook, Microsoft et d'autres.
Au cours de la session, Batista a montré comment cela pouvait être fait.
Comment automatiser la génération de contenu
Vous trouverez ci-dessous les étapes à suivre lors de l'examen des approches de génération automatisée de questions et de réponses.
- Trouvez des questions populaires à l'aide d'outils en ligne.
- Répondez-y en utilisant deux approches NLG:
- Une approche de recherche d'envergure.
- Une approche «livre fermé».
- Ajoutez un schéma de FAQ et validez à l'aide du SDTT.
Recherche de questions populaires
Trouver des questions populaires basées sur vos mots-clés n'est pas un gros défi car il existe des outils gratuits que vous pouvez utiliser pour ce faire.
Répondre au public
Tapez simplement un mot-clé et vous pourrez recevoir de nombreuses questions que les utilisateurs se posent.
Analyseur de questions par BuzzSumo
Ils regroupent des informations provenant de forums et d'autres lieux. Vous pouvez également trouver des types de questions plus longues.
AlsoAsked.com
Cet outil gratte les questions de Google.
Système de questions et réponses
L'algorithme
Papers With Codes est une excellente source de recherche de pointe sur la réponse aux questions.
Il vous permet de puiser librement dans les dernières recherches publiées.
Les universitaires et les chercheurs publient leurs recherches afin d'obtenir les commentaires de leurs pairs.
Ils se mettent toujours au défi de trouver un meilleur système.
Ce qui est plus intéressant, c'est que même des gens comme nous peuvent accéder au code dont nous allons avoir besoin pour répondre aux questions.
Pour cette tâche, nous allons utiliser T5, ou Transformateur de transfert de texte en texte.
L'ensemble de données
Nous avons également besoin des données de formation que le système va utiliser pour apprendre à répondre aux questions.
L'ensemble de données de réponse aux questions de Stanford 2.0 (SQuAD 2.0) est l'ensemble de données de compréhension en lecture le plus populaire.
Maintenant que nous avons à la fois l'ensemble de données et le code, parlons des deux approches que nous pouvons utiliser.
- Réponse aux questions à livre ouvert : Vous savez où se trouve la réponse.
- Réponse aux questions à livre fermé : vous ne savez pas où se trouve la réponse.
Approche n ° 1: une approche de recherche de portée (livre ouvert)
Avec trois lignes de code simples, nous pouvons amener le système à répondre à nos questions.
C'est quelque chose que vous pouvez faire dans Google Colab.
Créez un bloc-notes Colab et saisissez ce qui suit:
!pip install transformers from transformers import pipeline
# Allocate a pipeline for question-answering nlp = pipeline('question-answering')
nlp({ 'question': 'What is the name of the repository ?', 'context': 'Pipeline have been included in the huggingface/transformers repository' })
Lorsque vous tapez la commande - en fournissant une question, ainsi que le contexte qui, selon vous, a la réponse à la question - vous verrez que le système effectue essentiellement une recherche de la chaîne qui contient la réponse.
{'answer': 'huggingface/transformers',
'end': 59,
'score': 0.5135626548884602,
'start': 35}
Les étapes sont simples:
- Chargez la bibliothèque NLP Transformers.
- Allouez un pipeline de réponses aux questions.
- Fournissez la question et le contexte (contenu / texte le plus susceptible d'inclure la réponse).
Alors, comment allez-vous obtenir le contexte?
Avec quelques lignes de code.
!pip install requests-html from requests_html import HTMLSession session = HTMLSession() url = "https://www.searchenginejournal.com/uncover-powerful-data-stories-phyton/328471/" selector = "#post-328471 > div:nth-child(2) > div > div > div.sej-article-content.gototop-pos" with session.get(url) as r: post = r.html.find(selector, first=True) text = post.text
À l'aide de la bibliothèque HTML de requête, vous pouvez extraire l'URL - ce qui équivaut à naviguer dans le navigateur jusqu'à l'URL - et fournir un sélecteur (qui est le chemin de l'élément du bloc de texte sur la page.)
Je devrais simplement faire un appel pour extraire le contenu et l'ajouter au texte - et cela devient mon contexte.
Dans ce cas, nous allons poser une question qui est incluse dans un article SEJ.
Cela signifie que nous savons où se trouve la réponse. Nous fournissons l'article qui a la réponse.
Mais que se passe-t-il si nous ne savons pas quel article contient la réponse que nous essayons de demander?
Approche n ° 2: Explorer les limites de la NLG avec T5 et Turing-NLG (livre fermé)
Le T5 de Google (modèle à 11 milliards de paramètres) et le TuringNG de Microsoft (modèle à 17 milliards de paramètres) sont capables de répondre aux questions sans fournir de contexte.
Ils sont si massifs qu'ils sont capables de garder un souvenir de beaucoup de choses lorsqu'ils s'entraînaient.
L'équipe T5 de Google a affronté le modèle de 11 milliards de paramètres dans un défi de trivia de pub et a perdu.
Voyons à quel point il est simple d'entraîner T5 à répondre à nos propres questions arbitraires.
Dans cet exemple, l'une des questions posées par Batista est «Qui est le meilleur référencement au monde?»
Le meilleur référencement au monde, selon un modèle qui a été formé, par Google est SEOmoz.
Comment former, ajuster et tirer parti de T5
Formation T5
Nous allons former le modèle de 3 milliards de paramètres à l'aide d'un TPU Google Colab gratuit.
Voici le plan technique d'utilisation de T5:
- Copiez l'exemple de bloc-notes Colab sur votre Google Drive.
- Modifiez l'environnement d'exécution en Cloud TPU.
- Créez un bucket Google Cloud Storage (utilisez les 300 $ de crédits gratuits).
- Fournissez le chemin d'accès du compartiment au bloc-notes.
- Sélectionnez le modèle de 3 milliards de paramètres.
- Exécutez les cellules restantes jusqu'à l'étape de prédiction.
Et maintenant, vous avez un modèle qui peut réellement répondre aux questions.
Mais comment ajouter vos connaissances exclusives afin qu'elles puissent répondre aux questions de votre domaine ou de votre secteur à partir de votre site Web?
Ajout de nouveaux ensembles de données de formation propriétaires
C'est là que nous entrons dans l'étape de réglage fin.
Cliquez simplement sur l'option Ajuster dans le modèle.
Et il y a quelques exemples dans le code de la façon de créer de nouvelles fonctionnalités et de donner de nouvelles capacités au modèle.
Se souvenir de:
- Prétraitez votre base de connaissances propriétaire dans un format compatible avec T5.
- Adapter le code existant à cet effet (Natural Questions, TriviaQA).
Pour apprendre le processus d'extraction, de transformation et de chargement pour l'apprentissage automatique, lisez l'article du Search Engine Journal de Batista, A Practical Introduction to Machine Learning for SEO Professionals.
Ajout d'un schéma de FAQ
Cette étape est simple.
Accédez simplement à la documentation Google pour la FAQ: annotez vos FAQ avec des données structurées.
Ajoutez la structure JSON-LD pour cela.
Voulez-vous le faire automatiquement?
Batista a également écrit un article à ce sujet: Une introduction pratique au JavaScript moderne pour les référenceurs.
Avec JavaScript, vous devriez pouvoir générer ce JSON-LD.
Ressources pour en savoir plus:
- Introduction à Python pour les référenceurs
- Introduction à l'apprentissage automatique pour les référenceurs
- Tirez parti des modèles SOTA avec une seule ligne de code
- Explorer l'apprentissage par transfert avec T5
- Apprentissage profond sur les stéroïdes avec la puissance du transfert de connaissances
- MarketMuse Première ébauche
Regardez cette présentation
Vous pouvez maintenant regarder la présentation complète de Batista à partir de SEJ eSummit le 2 juin.
Crédits d'image
Image en vedette: Paulo Bobita
Toutes les captures d'écran prises par l'auteur, juillet 2020