Google KELM снижает предвзятость и повышает фактическую точность с помощью @sejournal, @martinibuster

Опубликовано: 2021-05-24

Блог Google AI объявил о KELM, способе, который можно использовать для уменьшения предвзятости и токсичного контента в поиске ( ответы на вопросы открытого домена ). Он использует метод TEKGEN для преобразования фактов сети знаний в текст на естественном языке, который затем можно использовать для улучшения моделей обработки естественного языка.

Что такое KELM?

KELM - это аббревиатура от слова "предварительное обучение модели языка с расширенными знаниями". Модели обработки естественного языка, такие как BERT, обычно обучаются в Интернете и других документах. KELM предлагает добавить достоверный фактологический контент (с расширенными знаниями ) к предварительному обучению языковой модели, чтобы повысить фактическую точность и уменьшить предвзятость.

КЕЛЬМ ТЕКГЕН TEKGEN преобразует структурированные данные графа знаний в текст на естественном языке, известный как KELM Corpus. КЕЛЬМ ТЕКГЕН

KELM использует достоверные данные

Исследователи Google предложили использовать графики знаний для повышения фактической точности, поскольку они являются надежным источником фактов.

Рекламное объявление

Продолжить чтение ниже

«Альтернативными источниками информации являются графы знаний (KG), которые состоят из структурированных данных. KG по своей природе основаны на фактах, поскольку информация обычно извлекается из более надежных источников, а фильтры постобработки и редакторы-люди обеспечивают удаление несоответствующего и неправильного контента ».

Google использует KELM?

Google не указал, используется ли KELM. KELM - это многообещающий подход к предварительному обучению языковой модели, резюмированный в блоге Google AI.

Предвзятость, фактическая точность и результаты поиска

Согласно исследованию, такой подход улучшает фактическую точность:

«Он обладает дополнительными преимуществами в виде повышения фактической точности и снижения токсичности получаемой языковой модели».

Это исследование важно, потому что снижение предвзятости и повышение фактической точности может повлиять на ранжирование сайтов.

Но до тех пор, пока KELM не будет введен в действие, невозможно предсказать, какое влияние это окажет.

Google в настоящее время не проверяет результаты поиска.

KELM, если он будет представлен, вероятно, может оказать влияние на сайты, которые продвигают фактически неверные утверждения и идеи.

Рекламное объявление

Продолжить чтение ниже

KELM может повлиять не только на поиск

KELM Corpus выпущен под лицензией Creative Commons (CC BY-SA 2.0).

Это означает, что теоретически любая другая компания (например, Bing, Facebook или Twitter) может использовать его для улучшения своего предварительного обучения обработке естественного языка.

Тогда возможно, что влияние KELM может распространиться на многие поисковые платформы и социальные сети.

Косвенные связи с MUM

Google также указал, что алгоритм MUM следующего поколения не будет выпущен, пока Google не убедится, что предвзятость не оказывает негативного влияния на ответы, которые он дает.

Согласно объявлению Google MUM:

«Так же, как мы тщательно протестировали множество приложений BERT, запущенных с 2019 года, MUM будет проходить тот же процесс, что и мы применяем эти модели в поиске.
В частности, мы будем искать шаблоны, которые могут указывать на предвзятость в машинном обучении, чтобы избежать предвзятости в наших системах ».

Подход KELM специально нацелен на снижение смещения, что может сделать его ценным для разработки алгоритма MUM.

Машинное обучение может давать необъективные результаты

В исследовательском документе говорится, что данные, которые модели естественного языка, такие как BERT и GPT-3, используют для обучения, могут привести к « токсичному содержанию » и предвзятости.

В вычислительной технике есть старое сокращение GIGO, которое расшифровывается как Garbage In - Garbage Out. Это означает, что качество вывода определяется качеством ввода.

Если вы тренируете алгоритм высокого качества, результат будет высокого качества.

Исследователи предлагают улучшить качество данных, на которых обучаются такие технологии, как BERT и MUM, чтобы устранить предвзятость.

Сеть знаний

Граф знаний - это набор фактов в формате структурированных данных. Структурированные данные - это язык разметки, который передает определенную информацию в манере, легко воспринимаемой машинами.

В этом случае информация - это факты о людях, местах и ​​вещах.

Сеть знаний Google была представлена ​​в 2012 году как способ помочь Google понять взаимосвязь между вещами. Поэтому, когда кто-то спрашивает о Вашингтоне, Google может определить, спрашивал ли человек о Вашингтоне, о человеке, штате или округе Колумбия.

Рекламное объявление

Продолжить чтение ниже

Было объявлено, что граф знаний Google состоит из данных из надежных источников фактов.

Объявление Google в 2012 году охарактеризовало граф знаний как первый шаг к созданию нового поколения поиска, которым мы в настоящее время пользуемся.

График знаний и фактическая точность

Данные графа знаний используются в этом исследовании для улучшения алгоритмов Google, поскольку информация заслуживает доверия и надежна.

В исследовательском документе Google предлагается интегрировать информацию графа знаний в процесс обучения, чтобы устранить предвзятость и повысить фактическую точность.

Исследование Google предлагает двоякое.

  1. Во-первых, им нужно преобразовать базы знаний в текст на естественном языке.
  2. Во-вторых, получившийся корпус, называемый предварительным обучением модели языка с расширенными знаниями (KELM), можно затем интегрировать в предварительное обучение алгоритма, чтобы уменьшить систематические ошибки.

Исследователи объясняют проблему так:

«Крупные предварительно обученные модели обработки естественного языка (NLP), такие как BERT, RoBERTa, GPT-3, T5 и REALM, используют корпусы естественного языка, полученные из Интернета и настроенные на конкретных данных задачи ...

Однако сам по себе текст на естественном языке представляет собой ограниченный охват знаний ... Более того, наличие не фактической информации и токсичного содержания в тексте может в конечном итоге вызвать искажения в результирующих моделях ».

Рекламное объявление

Продолжить чтение ниже

От структурированных данных графа знаний к тексту на естественном языке

Исследователи заявляют, что проблема интеграции информации из базы знаний в обучение заключается в том, что данные из базы знаний имеют форму структурированных данных.

Решение состоит в том, чтобы преобразовать структурированные данные графа знаний в текст на естественном языке с помощью задачи на естественном языке, называемой генерацией данных в текст.

Они объяснили, что, поскольку генерация данных в текст является сложной задачей, они создали то, что они назвали новым « конвейером » под названием « Текст из генератора KG (TEKGEN) », чтобы решить эту проблему.

Образец цитирования: Создание синтетического корпуса на основе графов знаний для предварительного обучения языковой модели с расширенными знаниями (PDF)

Текст на естественном языке TEKGEN с повышенной фактической точностью

TEKGEN - это технология, созданная исследователями для преобразования структурированных данных в текст на естественном языке. Именно этот конечный результат, фактический текст, может быть использован для создания корпуса KELM, который затем может использоваться как часть предварительного обучения машинного обучения, чтобы предотвратить появление предвзятости в алгоритмах.

Исследователи отметили, что добавление этой дополнительной информации графа знаний (корпусов) к обучающим данным привело к повышению фактической точности.

Рекламное объявление

Продолжить чтение ниже

В документе TEKGEN / KELM говорится:

«Мы также показываем, что вербализация всеобъемлющего энциклопедического KG, такого как Викиданные, может быть использована для интеграции структурированных KG и корпусов естественного языка.

… Наш подход преобразует KG в естественный текст, позволяя легко интегрировать его в существующие языковые модели. Он обладает дополнительными преимуществами в виде повышения фактической точности и снижения токсичности получаемой языковой модели ».

В статье KELM опубликована иллюстрация, показывающая, как один узел структурированных данных объединяется, а затем преобразуется оттуда в естественный текст (вербализованный).

Я разбил иллюстрацию на две части.

Ниже приведено изображение, представляющее структурированные данные графа знаний. Данные объединяются в текст.

Снимок экрана первой части процесса конверсии TEKGEN

Конкатенация Google KELM

Конкатенация Google KELM

На изображении ниже представлен следующий шаг процесса TEKGEN, который преобразует объединенный текст в текст на естественном языке.

Рекламное объявление

Продолжить чтение ниже

Снимок экрана с текстом, преобразованным в текст на естественном языке

Вербализованные данные сети знаний Google KELM

Вербализованные данные сети знаний Google KELM

Создание корпуса KELM

Есть еще одна иллюстрация, которая показывает, как генерируется текст на естественном языке KELM, который можно использовать для предварительного обучения.

В документе TEKGEN показаны эта иллюстрация и описание:

Как работает TEKGEN

Как работает TEKGEN

  • «На Шаге 1 тройки KG выравниваются с текстом Википедии с использованием удаленного наблюдения.
  • На шагах 2 и 3 сначала последовательно настраивается T5 в этом корпусе, за которым следует небольшое количество шагов в корпусе WebNLG,
  • На шаге 4 BERT настраивается для генерации семантической оценки качества для сгенерированных предложений относительно троек.
  • Шаги 2, 3 и 4 вместе образуют TEKGEN.
  • Для создания корпуса KELM на шаге 5 создаются подграфы сущностей с использованием счетчиков выравнивания пар отношений из обучающего корпуса, созданного на шаге 1.
    Затем тройки подграфов преобразуются в естественный текст с помощью TEKGEN ».

Рекламное объявление

Продолжить чтение ниже

KELM работает над уменьшением смещения и повышением точности

В статье KELM, опубликованной в блоге Google AI, говорится, что у KELM есть реальные приложения, особенно для задач с ответами на вопросы, которые явно связаны с извлечением информации (поиском) и обработкой естественного языка (такие технологии, как BERT и MUM).

Google исследует множество вещей, некоторые из которых кажутся исследованиями того, что возможно, но в остальном кажутся тупиками. Исследования, которые, вероятно, не попадут в алгоритм Google, обычно заканчиваются заявлением о том, что необходимы дополнительные исследования, потому что технология тем или иным образом не оправдывает ожиданий.

Но это не относится к исследованиям KELM и TEKGEN. Статья на самом деле оптимистично смотрит на практическое применение открытий. Это повышает вероятность того, что KELM в конечном итоге попадет в поиск в той или иной форме.

Вот как исследователи завершили статью о KELM для снижения предвзятости:

«У этого есть реальные приложения для наукоемких задач, таких как ответы на вопросы, где предоставление фактических знаний имеет важное значение. Более того, такие корпуса могут применяться при предварительном обучении больших языковых моделей и потенциально могут снизить токсичность и повысить достоверность ».

Рекламное объявление

Продолжить чтение ниже

Будет ли KELM использоваться в ближайшее время?

Недавнее объявление Google об алгоритме MUM требует точности, для чего был создан корпус KELM. Но применение KELM не ограничивается MUM.

Тот факт, что снижение предвзятости и фактическая точность являются критически важными для общества сегодня, и что исследователи оптимистично относятся к результатам, как правило, повышает вероятность того, что они будут использоваться в какой-либо форме в будущем при поиске.

Цитаты

Статья Google AI о KELM
KELM: интеграция графов знаний с корпусами предварительной подготовки языковых моделей

Исследовательский документ KELM (PDF)
Создание синтетического корпуса на основе графа знаний для предварительной подготовки модели языка с расширенными знаниями

TEKGEN Training Corpus на GitHub

Searchenginejournal.com