GPT-4 для идентификации типов клеток в отдельных ячейках соответствует, а иногда и превосходит экспертные методы

  • Пользователь Алексей Коровин опубликовал
  • 28 марта 2024 г., 16:18:50 MSK
  • 0 комментариев
  • 85 просмотров
GPT-4 может точно интерпретировать типы клеток, важные для анализа секвенирования одноклеточной РНК - процесса секвенирования, фундаментального для интерпретации типов клеток, - с высокой согласованностью по сравнению с трудоемким ручным аннотированием генной информации специалистами-людьми.

Согласно исследованию, проведенному в Школе общественного здравоохранения Мэйлмана Колумбийского университета, GPT-4 может точно интерпретировать типы клеток, важные для анализа секвенирования одноклеточной РНК - процесса, фундаментального для интерпретации типов клеток, - с высокой согласованностью по сравнению с трудоемким ручным аннотированием генной информации экспертами-людьми. Полученные результаты опубликованы в журнале Природные методы.

GPT-4 - это большая языковая модель, предназначенная для понимания и генерации речи. После оценки различных типов тканей и клеток GPT-4 продемонстрировал способность создавать аннотации типов клеток, которые тесно согласуются с ручными аннотациями экспертов-людей и превосходят существующие автоматические алгоритмы. Эта функция потенциально может значительно сократить количество усилий и специальных знаний, необходимых для аннотирования типов ячеек, а этот процесс может занять месяцы. Кроме того, исследователи разработали GPTCelltype, программный пакет R, облегчающий автоматизированное аннотирование типов клеток с использованием GPT-4.

"Процесс аннотирования типов клеток для отдельных клеток часто отнимает много времени, требуя от экспертов-людей сравнения генов в разных клеточных кластерах", - сказал Венпин Хоу, доктор философии, доцент кафедры биостатистики в Колумбийской школе Мейлмана. "Несмотря на то, что были разработаны автоматизированные методы аннотирования типов ячеек, ручные методы интерпретации научных данных по-прежнему широко используются, и такой процесс может занять недели или месяцы. Мы предположили, что GPT-4 может точно аннотировать типы ячеек, переводя процесс с ручного на полуавтоматический или даже полностью автоматизированный и делая его экономичным и бесперебойным".

Исследователи оценили производительность GPT-4 по десяти наборам данных, охватывающим пять видов, сотни типов тканей и клеток и включающим как нормальные, так и раковые образцы. GPT-4 был запрошен с помощью GPTCelltype, программного инструмента, разработанного исследователями. Для конкурирующих целей они также оценили другие версии GPT и ручные методы в качестве справочного инструмента.

В качестве первого шага исследователи сначала изучили различные факторы, которые могут повлиять на точность аннотаций в GPT-4. Они обнаружили, что GPT-4 работает лучше всего при использовании 10 лучших различных генов и демонстрирует одинаковую точность в различных стратегиях подсказок, включая базовую стратегию подсказок, стратегию подсказок, основанную на цепочке размышлений, которая включает этапы рассуждения, и стратегию повторных подсказок. GPT-4 соответствовал результатам ручного анализа более чем в 75 процентах типов клеток в большинстве исследований и тканей, демонстрируя свою компетентность в создании сопоставимых с экспертами аннотаций типов клеток. Кроме того, низкое соответствие между GPT-4 и аннотациями, приведенными вручную, для некоторых типов клеток не обязательно означает, что аннотация GPT-4 неверна. В примере клеток стромы или соединительной ткани GPT-4 предоставляет более точные аннотации типов клеток. GPT-4 также был заметно быстрее.

Хоу и ее коллега также оценили надежность GPT-4 в сложных сценариях с реальными данными и обнаружили, что GPT-4 может различать чистые и смешанные типы клеток с точностью 93 процента, а также различать известные и неизвестные типы клеток с точностью 99 процентов. Они также оценили эффективность воспроизведения методов GPT-4 с использованием предыдущих имитационных исследований. GPT-4 генерировал идентичные обозначения для одних и тех же маркерных генов в 85 процентах случаев. "Все эти результаты демонстрируют надежность GPT-4 в различных сценариях", - отметил Хоу.

Хотя GPT-4 превосходит существующие методы, по словам Хоу, существуют ограничения, которые следует учитывать, включая проблемы с проверкой качества и надежности GPT-4, поскольку он мало раскрывает информацию о процедурах обучения.

"Поскольку наше исследование сосредоточено на стандартной версии GPT-4, точная настройка GPT-4 может еще больше улучшить производительность аннотации типов ячеек", - сказал Хоу.

Чжичэн Цзи из медицинской школы Университета Дьюка является соавтором.

Исследование было поддержано Национальными институтами здравоохранения, грант U54AG075936 и R35GM150887.

Комментарии

0 комментариев