
Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut
Raksasa tidur telah terbangun!
Untuk sementara waktu, sepertinya Amazon sedang bermain di perlombaan untuk menawarkan penggunanya-terutama jutaan pengembang yang membangun di atas infrastruktur cloud Amazon Services (AWS)-memaksa model dan alat AI pihak pertama.
Tetapi pada akhir 2024, ia memulai debutnya sendiri keluarga model yayasan internal, Amazon Nova, dengan teks, gambar dan bahkan kemampuan pembuatan video, dan bulan lalu melihat asisten suara Amazon Alexa baru sebagian didukung oleh keluarga model Claude Anthropic.
Kemudian, pada hari Senin, E-Commerce dan Divisi Intelijen Umum Raksasa Cloud Raksasa Amazon Agi telah mengumumkan rilis Amazon Nova Act, kit pengembang eksperimental untuk membangun agen AI yang dapat menavigasi web dan menyelesaikan tugas secara mandiri, ditenagai oleh versi khusus, model Nova Bahasa Nova (LLM). Oh, dan Standard Developer Kit (SDK) adalah open source di bawah lisensi APACHE 2.0 permisif, meskipun SDK dirancang untuk bekerja hanya dengan model NOVA kustom in-house Amazon, bukan yang pihak ketiga.
Tujuannya adalah untuk memungkinkan pengembang pihak ketiga untuk membangun agen AI yang mampu melakukan tugas dengan andal dalam browser web.
Tapi bagaimana Nova Act Amazon menumpuk ke platform pembangunan agen lain di pasar, seperti Microsoft's Autogen, Agenforce Salesforce, dan tentu saja, Openai yang baru -baru ini dirilis agen open source SDK?
Pendekatan yang berbeda dan lebih bijaksana untuk agen AI
Sejak kebangkitan publik model bahasa besar (LLM), sebagian besar sistem “agen” telah terbatas untuk merespons dalam bahasa alami atau memberikan informasi dengan menanyakan basis pengetahuan.
Nova Act adalah bagian dari pergeseran industri yang lebih besar menuju agen berbasis aksi-sistem yang dapat menyelesaikan tugas aktual di lingkungan digital atas nama pengguna. API Responses baru Openai, yang memberi pengguna akses ke browser navigator otonomnya, adalah salah satu contoh terkemuka dari ini, yang dapat diintegrasikan oleh pengembang ke dalam agen AI melalui agen openai SDK.
Amazon Agi menekankan bahwa sistem agen saat ini, sambil menjanjikan, berjuang dengan keandalan dan sering membutuhkan pengawasan manusia, terutama ketika menangani alur kerja multi-langkah atau kompleks.
Nova Act dirancang khusus untuk mengatasi keterbatasan ini dengan menyediakan serangkaian perintah atom, preskriptif yang dapat dirantai bersama menjadi alur kerja yang andal.
Deniz Birlikci, anggota staf teknis di Amazon, menggambarkan visi yang lebih luas dalam sebuah video yang memperkenalkan UU Nova: Segera, akan ada lebih banyak agen AI daripada orang yang menelusuri web, melakukan tugas atas nama pengguna.
David Luan, Wakil Presiden Tim Otonomi Amazon dan Kepala Agi SF Lab, membingkai misi lebih langsung dalam wawancara panggilan video baru -baru ini dengan VentureBeat: “Kami telah membuat model AI eksperimental baru ini yang dilatih untuk melakukan tindakan di browser web. Secara fundamental, kami pikir agen adalah blok pembangunan komputasi,” katanya.
Luan, yang sebelumnya adalah salah satu pendiri dan CEO Adept AI, bergabung dengan Amazon pada tahun 2024 sebagai bagian dari sewa aqcui. Luan mengatakan dia telah lama menjadi pendukung agen AI. “Dengan Adept, kami adalah perusahaan pertama yang benar -benar mulai bekerja pada agen AI. Pada titik ini, semua orang tahu betapa pentingnya agen. Cukup keren untuk menjadi sedikit lebih dulu dari waktu kami,” tambahnya.
Apa yang ditawarkan Nova Act devs
Nova Act SDK memberi pengembang kerangka kerja untuk membangun agen otomatisasi berbasis web yang menggunakan permintaan bahasa alami yang dipecah menjadi langkah-langkah yang jelas dan mudah dikelola.
Tidak seperti agen bertenaga LLM yang khas yang mencoba seluruh alur kerja dari satu prompt-sering kali menghasilkan perilaku yang tidak dapat diandalkan-UU NOVA dirancang untuk secara bertahap menjalankan tugas yang lebih kecil dan dapat diverifikasi.
Beberapa fitur utama dari Nova Act meliputi:
- Dekomposisi tugas berbutir halus: Pengembang dapat memecah alur kerja digital yang kompleks menjadi panggilan ACT () yang lebih kecil, masing -masing memandu agen untuk melakukan interaksi UI tertentu.
- Manipulasi browser langsung melalui penulis naskah: Nova Act terintegrasi dengan DramawanKerangka kerja otomatisasi browser open-source yang dikembangkan oleh Microsoft. Playwright memungkinkan pengembang untuk mengontrol browser web secara terprogram – klik elemen, mengisi formulir, atau menavigasi halaman – tanpa mengandalkan hanya pada prediksi AI. Integrasi ini sangat berguna untuk menangani tugas -tugas sensitif seperti memasukkan kata sandi atau detail kartu kredit. Misalnya, alih -alih mengirim informasi sensitif ke model, pengembang dapat menginstruksikan Nova Act untuk fokus pada bidang kata sandi dan kemudian menggunakan API penulis naskah untuk dengan aman memasukkan kata sandi tanpa model yang pernah “melihatnya”. Pendekatan ini membantu memperkuat keamanan dan privasi saat mengotomatisasi interaksi web.
- Integrasi Python: SDK memungkinkan pengembang untuk mengaitkan kode Python dengan perintah Nova Act, termasuk alat Python standar seperti breakpoint, pernyataan, atau pengumpulan utas untuk eksekusi paralel.
- Ekstraksi Informasi Terstruktur: SDK mendukung ekstraksi data terstruktur melalui skema Pydantic, yang memungkinkan agen untuk mengubah konten layar menjadi format terstruktur.
- Paralelisasi dan Penjadwalan: Pengembang dapat menjalankan beberapa contoh Undang -Undang Nova secara bersamaan dan menjadwalkan alur kerja otomatis tanpa perlu pengawasan manusia yang berkelanjutan.
Luan menekankan bahwa Nova Act adalah alat untuk pengembang daripada chatbot tujuan umum. “Nova Act dibangun untuk pengembang. Ini bukan chatbot yang Anda ajak bicara untuk bersenang -senang. Ini dirancang untuk membiarkan pengembang mulai membangun produk yang bermanfaat,” katanya.
Sebagai contoh, salah satu alur kerja sampel yang ditunjukkan dalam dokumentasi Amazon menunjukkan bagaimana Nova Act dapat mengotomatiskan pencarian apartemen dengan mengikis daftar penyewaan dan menghitung jarak bersepeda untuk melatih stasiun, kemudian menyortir hasil dalam tabel terstruktur.
Contoh lain yang dipamerkan menggunakan Nova Act untuk memesan salad spesifik dari SweetGreen setiap hari Selasa, sepenuhnya bebas-genggam dan sesuai jadwal, menggambarkan bagaimana pengembang dapat mengotomatisasi tugas digital berulang dengan cara yang terasa dapat diandalkan dan dapat disesuaikan.
Kinerja benchmark dan fokus pada keandalan
Pesan utama dalam pengumuman Amazon adalah bahwa keandalan, bukan hanya kecerdasan, adalah penghalang utama untuk adopsi agen yang meluas.
Model canggih saat ini sebenarnya cukup rapuh dalam menyalakan agen AI, dengan agen biasanya mencapai tingkat keberhasilan 30% hingga 60% pada tugas multi-langkah berbasis browser, menurut Amazon.
Nova Act, bagaimanapun, menekankan pendekatan blok bangunan, mencetak lebih dari 90% pada evaluasi internal tugas yang menantang model lain-seperti berinteraksi dengan dropdown, pemetik tanggal, atau pop-up.
Luan menggarisbawahi mengapa fokus keandalan itu penting. “Apa yang benar -benar kami fokuskan adalah bagaimana Anda benar -benar membuat agen dapat diandalkan? Jika Anda memintanya untuk memperbarui catatan di Salesforce dan menghapus database Anda dari sepuluh kali, Anda mungkin tidak akan pernah menggunakannya lagi,” katanya.
Amazon Agi membandingkan Nova Act melawan model yang bersaing termasuk Anthropic's Claude 3.7 Sonnet dan Model CUA Openai. Pada tolok ukur teks Web Screenspot, yang menguji pengumpulan instruksi pada elemen layar tekstual, Nova Act mencapai skor 0,939, mengungguli Claude 3.7 soneta (0,900) dan Openai CUA (0,883).
Pada tolok ukur ikon Web Screenspot, yang berfokus pada elemen UI visual, Nova Act mencetak 0,879, sekali lagi di depan model lainnya.
Namun, pada tolok ukur web groundui, yang menguji interaksi UI umum, Nova Act mencetak 0,805, sedikit di belakang para pesaingnya.
Skor ini diukur secara internal oleh Amazon menggunakan permintaan yang konsisten dan kriteria evaluasi.
Amazon juga menyoroti hasil awal dalam kemampuan Nova Act untuk menggeneralisasi di luar lingkungan standar.
Misalnya, anggota tim Rick Liu menunjukkan bagaimana agen, tanpa pelatihan eksplisit, berhasil berinteraksi dengan permainan web bertema merpati-menuntut statistik, melawan lawan, dan maju dalam permainan.
Menurut Luan, kemampuan untuk menggeneralisasi adalah pusat visi jangka panjang. “Tujuan kami dengan Nova Act adalah untuk menjadi solusi penggunaan browser universal. Kami menginginkan agen yang dapat melakukan apa pun yang ingin Anda lakukan di komputer untuk Anda,” katanya.
Fleksibel untuk digunakan di awan yang berbeda, tetapi terkunci untuk model Nova Amazon
Sementara Nova Act dapat diakses oleh pengembang secara global melalui nova.amazon.com, Luan mengklarifikasi bahwa sistem ini ditambah dengan ketat dengan model yayasan Nova in-house Amazon.
Pengembang tidak dapat mencolokkan LLM eksternal seperti OpenAI's GPT-4O atau Anthropic's Claude 3.7 Sonnet, tidak seperti dengan agen Openai SDK, dan pada tingkat yang lebih rendah, platform agen Autogen dan Salesforce dari Microsoft (yang memungkinkan beralih ke beberapa perusahaan penyedia dan keluarga model yang berbeda).
“Nova Act adalah versi yang terlatih dari model Nova,” katanya. “Ini bukan hanya perancah di atas llm generik. Secara umum dilatih untuk bertindak di internet atas nama Anda.”
Namun, Nova Act tidak terbatas pada lingkungan AWS. Pengembang dapat mengunduh SDK dan menjalankannya secara lokal, di cloud, atau di mana pun mereka memilih. “Kamu tidak perlu menggunakan AWS untuk menggunakannya,” kata Luan.
Dengan demikian, untuk bisnis yang mencari fleksibilitas model yang mendasari maksimum untuk agen mereka, Nova Act mungkin bukan pilihan terbaik. Namun, bagi mereka yang mencari model yang dibuat khusus yang dirancang khusus untuk menavigasi web dan melakukan tindakan di berbagai situs web dengan antarmuka pengguna yang sangat berbeda (UI), mungkin ada baiknya-terutama jika Anda sudah berada di ekosistem pengembang Amazon atau AWS.
Keamanan, lisensi dan harga
Nova Act SDK dirilis di bawah lisensi Apache, versi 2.0 (Januari 2004), lisensi open source. Namun, ini hanya berlaku untuk perangkat lunak SDK.
Model Nova Act itu sendiri, bersama dengan bobot dan data pelatihan, adalah hak milik dan tetap sumber tertutup. Pendekatan ini disengaja, menurut Luan, yang menjelaskan bahwa model tersebut terintegrasi dengan ketat dan dilatih bersama dengan SDK untuk mencapai keandalan.
Saat peluncuran, Nova Act ditawarkan sebagai pratinjau penelitian gratis. Belum ada harga yang diumumkan untuk penggunaan produksi.
Luan menggambarkan fase ini sebagai peluang bagi pengembang untuk bereksperimen dan membangun dengan teknologi. “Keyakinan kami adalah bahwa sebagian besar produk agen yang paling berguna belum dibangun. Kami ingin memungkinkan siapa pun untuk membangun agen yang sangat berguna, baik untuk diri mereka sendiri atau sebagai produk,” katanya.
Jangka panjang, Amazon berencana untuk memperkenalkan persyaratan tingkat produksi, termasuk penagihan berbasis penggunaan dan jaminan penskalaan, tetapi itu belum tersedia.
Apa selanjutnya untuk aksi nova?
Rilis Nova Act mencerminkan ambisi Amazon yang lebih luas untuk menjadikan agen AI yang berorientasi pada tindakan sebagai komponen dasar komputasi.
Luan menyimpulkan peluang di depan: “Mimpi pribadi saya adalah bahwa agen menjadi blok bangunan komputasi, dan startup dan produk baru yang paling keren dibangun di atas apa yang sedang dikembangkan tim kami.”
Nova Act SDK sekarang tersedia untuk eksperimen dan prototipe di situs web Amazon dan di GitHub.