Отправляет email-рассылки с помощью сервиса Sendsay

[TC] Нейросеть управляет вашим компьютером. Claude 3,5 Sonnet

Приветствую всех участников рассылки!!!
Думаю, уже никого не удивить тем, что нейросетевые модели, такие как
ChatGPT помогают незрячим людям, создавая описания изображений и
отвечая на дополнительные вопросы.
В мобильной версии Be my eyes ChatGPT рассказывает об
окружающей обстановке, объектах перед камерой, делает описания
присланных нам изображений.
В версии Be my eyes для ПК ChatGPT, помимо картинок, делает описание
экрана и, очень разумно и успешно рассказывает об интерфейсе открытой
программы, отвечает на дополнительные вопросы, вполне адекватно
понимает назначение элементов управления и функционал программного
обеспечения, интерфейс которого отправил ему на описание пользователь.
Все разговоры с нейросетью вполне разумны, они практически ничем не
отличаются от переписки с человеком.
Но, от описания интерфейса до управления компьютером один шаг!
Нужны только соответствующие инструменты на стороне клиента и
инструкция для нейросети по использованию этих инструментов.
Именно этот шаг, от описания экрана к взаимодействию с интерфейсом и
сделала компания Anthropic.
Компания Anthropic, это конкурент Open AI.
Языковая модель Anthropic под названием Claude, не уступает, а по
некоторым параметрам превосходит ChatGPT. Эта языковая модель так же
может генерировать тексты, делать описания изображений, кодить по
просьбе пользователя, отвечать на вопросы и так далее.
Некоторое время назад компания Anthropic выпустила инструменты,
позволяющие их языковой модели Claude 3,5 Sonnet управлять
компьютером. Причём, не через терминал, а через графический интерфейс,
управляя указателем мыши и клавиатурой.
Как это работает?
Пользователь пишет в чате задание для нейросети. Например, купить
билет на поезд из Перми до Москвы.
Нейросеть делает скриншот экрана, видит на рабочем столе ярлык
браузера, если не видит, открывает меню и ищет браузер там.
После каждого действия программа делает скриншот, чтобы оценить
результат и принять решения о дальнейших действиях.
Открыла меню- скриншот, увидела список всех программ- скриншот,
прокрутила- скриншот, обнаружила браузер и открыла- скриншот и таким
образом, делая снимки экрана и манипулируя мышью и клавиатурой
программа выполняет задачу и контролирует результат на каждом шаге.
Загуглит, найдёт сайт, скажем, РЖД, зарегистрируется при
необходимости, попросит у вас необходимые данные для заполнения полей
при регистрации, даже некоторые
капчи пройдёт, но не все.
Найдёт билеты, предложит варианты и купит их для вас.
Чем это полезно незрячим пользователям?
Тем, что больше нет недоступных для незрячих пользователей программ и
сайтов. Нейросеть становится вашим секретарём у которого нет
ограниченных возможностей и которому не нужна программа экранного
доступа.
Напишите задание и она всё сделает. А если прикрутить к чату с
нейросетью синтез и распознавание речи, то и голосом с ней общаться
можно. Как прикрутить? Озадачте этим саму нейросеть. Пусть ставит
Python и редактор кода, Гуглит, ищет API соответствующих голосовых
сервисов и сама кодит, она это умеет.
По поводу Python я не тестировал, но на виртуальный Linux сервер
Torrent-клиент Transmission с веб-интерфейсом по паролю и ещё кое-что
нужное ChatGPT мне поставил без проблем.
Правда, там приходилось копировать команды из чата в терминал, а потом
копировать из терминала возврат команды. Всё получается, тут главное,
пользоваться версией с большим контекстом, в бесплатной версии
контекст маленький и чат забывает начало беседы и первоначальное
задание и всё идёт неправильно.
Даже узнал, что такое текстовый редактор "nano". :-)
Нужные параметры в открытых в нём файлах конфигурации не искал, просто
кидал чату всё содержимое конфигов и просил отредактировать, как надо,
а потом в nano заменял содержимое полученным от чата результатом.
Как настроить такое управление вашим ПК нейросетью?
К сожалению, пока компания Anthropic не предоставляет готового
решения, чтобы установить и заработало, только инструменты для
реализации такой задачи.
Для начала знакомимся с этим видео:
https://www.youtube.com/watch?v=h56NwJ_WLeU

Если у вас по каким-то причинам тормозит YouTube, скачивайте
выкачанное с YouTube видео с Яндекс-диска по ссылке:
https://disk.yandex.ru/i/qaQkP3S2N1iflg

И ещё полезная ссылочка из описания этого видео, да простит меня
автор:

Репозиторий с командой для запуска:
https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo

Быстро выкачал, ушёл, называется нашёл! (улыбка)

Если вам нужен доступ к лучшим нейросетевым моделям из России с
оплатой Российскими банковскими картами, рекомендую:
https://gptunnel.ru

Здесь и все действующие версии ChatGPT с большим контекстом, и Claude
от Anthropic, Suno для написания песен на ваши стихи, Grok 2 от Илона
Маска, Stable Diffusion и Midjorney для генерации изображений и многое другое!
Никаких подписок и абонентских плат, пополняете баланс и платите
только за использованные токены.
Здесь же можно получить API ключи для интеграции нейросетевых
технологий в ваши проекты, но это уже через создание бизнес-аккаунта.
Подробнее здесь:
https://www.gptunnel.ru/docs

В заключении.
Очень удивляюсь, почему разработчики и Be my eyes, и программ
экранного доступа ограничиваются исключительно описанием изображений и
не делают этот очевидный следующий шаг. Оно уже работает и работает
очень неплохо, осталось только интегрировать.
Кто будет платить? Ну пользователи, конечно, которые захотят оформить
подписку на такие инструменты доступности.

Ответить   Sun, 8 Dec 2024 20:24:08 +0500 (#3708855)

 

Ответы:

Приветствую, Алексей!

А какие нужны минимальные технические параметры компьютера, чтобы это
всё шустро работало. У меня двух-ядерник по 3.4 Ггц и оператива 16 гб.

Денис.

Ответить   Mon, 9 Dec 2024 13:55:04 +0300 (#3708868)

 

Здравствуйте, Денис!!!

Вы писали:

Конец цитаты.

На сколько я понимаю, даже на слабых компьютерах должно идти, ведь
языковая модель работает на серверах Anthropic.
Хорошая видеокарта понадобится только в том случае, если вы захотите
запустить языковую модель локально.
Но, модели для локального использования меньше чата GPT и, возможно,
обучены не так хорошо, а картинки вообще не распознают.

Ответить   Tue, 10 Dec 2024 22:34:22 +0500 (#3708893)