CHATGPT BARU: Lebih pintar, tapi … Fabrikasi lebih banyak perak?

CHATGPT BARU: Lebih pintar, tapi … lebih banyak perak?

Openai baru-baru ini meluncurkan dua versi baru dari ChatGPT, O3 dan O4-Mini, yang diiklankan memiliki kemampuan berpikir logis yang unggul. Namun, hasil tes internal mengejutkan: kedua model ini memiliki “halusinasi” – yaitu, membuat informasi – dengan frekuensi yang mengkhawatirkan, bahkan lebih tinggi dari pendahulunya. Ini menimbulkan tantangan besar bagi Openai dalam memastikan keakuratan dan keandalan produk AI generasi berikutnya. Artikel ini akan menganalisis lebih lanjut tentang masalah ini dan efek potensial.

Peluncuran O3 dan O4-Mini menandai langkah penting dalam Teknologi Pemrosesan Bahasa Alami (NLP). Openai mengharapkan kedua model ini untuk menangani tugas -tugas kompleks yang lebih baik yang membutuhkan penalaran logis. Namun, kenyataan menunjukkan bahwa, selain peningkatan yang signifikan dalam kemampuan untuk berpikir, tren “fabrikasi” O3 dan O4-Mini telah meningkat secara signifikan. Hal ini menyebabkan banyak kekhawatiran tentang penerapan model -model ini dalam praktik, terutama di daerah -daerah yang membutuhkan akurasi tinggi seperti pers, kesehatan atau hukum.

Saat ini, Openai belum menerbitkan rincian tentang penyebab fenomena ini. Namun, banyak ahli percaya bahwa terlalu banyak fokus pada peningkatan logika mungkin secara tidak sengaja mengurangi kemampuan untuk memverifikasi informasi model. Pelatihan model pada sejumlah besar data, yang dapat berisi banyak informasi palsu, juga merupakan faktor yang perlu dipertimbangkan.

Kejadian ini menimbulkan pertanyaan besar tentang arah pengembangan teknologi AI secara umum. Bagaimana cara menyeimbangkan peningkatan pemikiran logis dan memastikan keakuratan informasi? Dapatkah Openai mengatasi masalah ini dan membawa chatgtop yang lebih andal di masa depan? Ini adalah tantangan yang perlu diselesaikan Openai untuk mempertahankan posisi terdepan di bidang AI. Pengembangan teknologi AI perlu dikaitkan dengan tanggung jawab untuk memastikan transparansi dan keandalan, menghindari konsekuensi yang tidak diinginkan.

#Openai #chatgpt

: Openai sulit untuk chatgpt o3, o4-mini “Fabrikasi” lebih banyak “

Openai baru saja meluncurkan dua model baru O3 Dan O4-minidirancang khusus untuk menangani tugas yang membutuhkan pemikiran logis. Namun, menurut tes internal, kedua model ini cenderung membuat informasi palsu (juga dikenal sebagai “halusinasi”) dengan frekuensi yang lebih tinggi dari model sebelumnya seperti GPT-4O.

Fenomena ilusi masih merupakan salah satu masalah paling sulit di industri AI. Model-model baru sering meningkatkan akurasi mereka, tetapi O3 dan O4-Mini menentang tren itu. Menurut laporan teknis dari OpenAI, model -model ini “membuat lebih banyak pernyataan”, juga harus memberikan lebih banyak informasi dengan benar tetapi juga jawaban yang lebih salah.

Hasil tes menunjukkan bahwa O3 berhalusinasi pada 33%dari pertanyaan dataqa set-dua kali lipat dari O1 (16%) dan O3-mini (14,8%). O4-Mini bahkan lebih tinggi, dengan tingkat hingga 48%. Ini adalah langkah mundur dibandingkan dengan harapan akurasi model AI generasi baru.

Openai sulit untuk chatgpt o3, o4-mini
Model AI Chatgpt populer saat ini

Tidak hanya Openai mencatat masalah ini. Menurut Cusion, laboratorium penelitian AI independen, O3 cenderung “membuat” tugas melakukan tugas. Dalam satu kasus, model mengatakan bahwa mereka telah menjalankan kode pada MacBook Pro 2021 dan menyalin hasilnya ke dalam jawaban – sesuatu yang benar -benar tidak mungkin dilakukan dalam kenyataan.

Neil Chowdhury, seorang peneliti di Cugure dan mantan staf Openai, mengatakan bahwa algoritma pembelajaran penguatan yang digunakan untuk garis O Model mungkin secara tidak sengaja memperkuat kesalahan yang akan sedikit dikurangi oleh proses pelatihan tradisional. Dalam sudut pandang yang sama, co -founder coduce adalah Sarah Schwettmann, mengatakan bahwa laju halusik tinggi membuat O3 kurang efektif daripada potensi sebenarnya.

Beberapa perusahaan masih menguji O3 di lingkungan nyata. Kian Katanforoosh, seorang dosen di Stanford dan CEO Workera, mengatakan kelompoknya menilai O3 lebih tinggi daripada saingan ketika digunakan dalam proses pemrograman. Namun, mereka juga menemukan bahwa model ini sering membuat tautan web yang rusak.

Meskipun kadang -kadang jawaban “kreatif” dari AI dapat mengarah pada ide -ide baru, tetapi di bidang -bidang seperti hukum atau keuangan, di mana ia membutuhkan akurasi absolut, fenomena halusinasi adalah penghalang besar. Pendekatan yang menjanjikan adalah mengintegrasikan fitur pencarian web ke dalam model AI. Misalnya, GPT-4O memiliki pencarian untuk mencapai akurasi 90% pada SimpleQA, menurut data dari OpenAI.

Perwakilan Openai, Niko Felix, mengatakan bahwa meningkatkan akurasi dan halusinasi adalah prioritas penelitian yang berkelanjutan dari perusahaan. Namun, jika perluasan model berpikir terus memperburuk masalah ini, industri AI akan menghadapi masalah yang lebih mendesak dari sebelumnya.

Dalam konteks metode pelatihan tradisional mulai menunjukkan bahwa efisiensi berkurang, banyak perusahaan teknologi beralih ke model berpikir. Meskipun menyimpan sumber daya dan secara efektif dalam banyak tugas, jelas bahwa masih ada banyak hambatan untuk diatasi sehingga mereka benar -benar dapat diandalkan.

Openai baru saja meluncurkan dua model baru O3 Dan O4-minidirancang khusus untuk menangani tugas yang membutuhkan pemikiran logis. Namun, menurut tes internal, kedua model ini cenderung membuat informasi palsu (juga dikenal sebagai “halusinasi”) dengan frekuensi yang lebih tinggi dari model sebelumnya seperti GPT-4O.

Fenomena ilusi masih merupakan salah satu masalah paling sulit di industri AI. Model-model baru sering meningkatkan akurasi mereka, tetapi O3 dan O4-Mini menentang tren itu. Menurut laporan teknis dari OpenAI, model -model ini “membuat lebih banyak pernyataan”, juga harus memberikan lebih banyak informasi dengan benar tetapi juga jawaban yang lebih salah.

Hasil tes menunjukkan bahwa O3 berhalusinasi pada 33%dari pertanyaan dataqa set-dua kali lipat dari O1 (16%) dan O3-mini (14,8%). O4-Mini bahkan lebih tinggi, dengan tingkat hingga 48%. Ini adalah langkah mundur dibandingkan dengan harapan akurasi model AI generasi baru.

Openai sulit untuk chatgpt o3, o4-mini
Model AI Chatgpt populer saat ini

Tidak hanya Openai mencatat masalah ini. Menurut Cusion, laboratorium penelitian AI independen, O3 cenderung “membuat” tugas melakukan tugas. Dalam satu kasus, model mengatakan bahwa mereka telah menjalankan kode pada MacBook Pro 2021 dan menyalin hasilnya ke dalam jawaban – sesuatu yang benar -benar tidak mungkin dilakukan dalam kenyataan.

Neil Chowdhury, seorang peneliti di Cugure dan mantan staf Openai, mengatakan bahwa algoritma pembelajaran penguatan yang digunakan untuk garis O Model mungkin secara tidak sengaja memperkuat kesalahan yang akan sedikit dikurangi oleh proses pelatihan tradisional. Dalam sudut pandang yang sama, co -founder coduce adalah Sarah Schwettmann, mengatakan bahwa laju halusik tinggi membuat O3 kurang efektif daripada potensi sebenarnya.

Beberapa perusahaan masih menguji O3 di lingkungan nyata. Kian Katanforoosh, seorang dosen di Stanford dan CEO Workera, mengatakan kelompoknya menilai O3 lebih tinggi daripada saingan ketika digunakan dalam proses pemrograman. Namun, mereka juga menemukan bahwa model ini sering membuat tautan web yang rusak.

Meskipun kadang -kadang jawaban “kreatif” dari AI dapat mengarah pada ide -ide baru, tetapi di bidang -bidang seperti hukum atau keuangan, di mana ia membutuhkan akurasi absolut, fenomena halusinasi adalah penghalang besar. Pendekatan yang menjanjikan adalah mengintegrasikan fitur pencarian web ke dalam model AI. Misalnya, GPT-4O memiliki pencarian untuk mencapai akurasi 90% pada SimpleQA, menurut data dari OpenAI.

Perwakilan Openai, Niko Felix, mengatakan bahwa meningkatkan akurasi dan halusinasi adalah prioritas penelitian yang berkelanjutan dari perusahaan. Namun, jika perluasan model berpikir terus memperburuk masalah ini, industri AI akan menghadapi masalah yang lebih mendesak dari sebelumnya.

Dalam konteks metode pelatihan tradisional mulai menunjukkan bahwa efisiensi berkurang, banyak perusahaan teknologi beralih ke model berpikir. Meskipun menyimpan sumber daya dan secara efektif dalam banyak tugas, jelas bahwa masih ada banyak hambatan untuk diatasi sehingga mereka benar -benar dapat diandalkan.

<

h1>Kesimpulan Openai sulit untuk chatgpt o3, o4-mini “membuat informasi”

Openai baru saja meluncurkan dua model baru O3 Dan O4-minidirancang khusus untuk menangani tugas yang membutuhkan pemikiran logis. Namun, menurut tes internal, kedua model ini cenderung membuat informasi palsu (juga dikenal sebagai “halusinasi”) dengan frekuensi yang lebih tinggi dari model sebelumnya seperti GPT-4O.

Fenomena ilusi masih merupakan salah satu masalah paling sulit di industri AI. Model-model baru sering meningkatkan akurasi mereka, tetapi O3 dan O4-Mini menentang tren itu. Menurut laporan teknis dari OpenAI, model -model ini “membuat lebih banyak pernyataan”, juga harus memberikan lebih banyak informasi dengan benar tetapi juga jawaban yang lebih salah.

Hasil tes menunjukkan bahwa O3 berhalusinasi pada 33%dari pertanyaan dataqa set-dua kali lipat dari O1 (16%) dan O3-mini (14,8%). O4-Mini bahkan lebih tinggi, dengan tingkat hingga 48%. Ini adalah langkah mundur dibandingkan dengan harapan akurasi model AI generasi baru.

Openai sulit untuk chatgpt o3, o4-mini
Model AI Chatgpt populer saat ini

Tidak hanya Openai mencatat masalah ini. Menurut Cusion, laboratorium penelitian AI independen, O3 cenderung “membuat” tugas melakukan tugas. Dalam satu kasus, model mengatakan bahwa mereka telah menjalankan kode pada MacBook Pro 2021 dan menyalin hasilnya ke dalam jawaban – sesuatu yang benar -benar tidak mungkin dilakukan dalam kenyataan.

Neil Chowdhury, seorang peneliti di Cugure dan mantan staf Openai, mengatakan bahwa algoritma pembelajaran penguatan yang digunakan untuk garis O Model mungkin secara tidak sengaja memperkuat kesalahan yang akan sedikit dikurangi oleh proses pelatihan tradisional. Dalam sudut pandang yang sama, co -founder coduce adalah Sarah Schwettmann, mengatakan bahwa laju halusik tinggi membuat O3 kurang efektif daripada potensi sebenarnya.

Beberapa perusahaan masih menguji O3 di lingkungan nyata. Kian Katanforoosh, seorang dosen di Stanford dan CEO Workera, mengatakan kelompoknya menilai O3 lebih tinggi daripada saingan ketika digunakan dalam proses pemrograman. Namun, mereka juga menemukan bahwa model ini sering membuat tautan web yang rusak.

Meskipun kadang -kadang jawaban “kreatif” dari AI dapat mengarah pada ide -ide baru, tetapi di bidang -bidang seperti hukum atau keuangan, di mana ia membutuhkan akurasi absolut, fenomena halusinasi adalah penghalang besar. Pendekatan yang menjanjikan adalah mengintegrasikan fitur pencarian web ke dalam model AI. Misalnya, GPT-4O memiliki pencarian untuk mencapai akurasi 90% pada SimpleQA, menurut data dari OpenAI.

Perwakilan Openai, Niko Felix, mengatakan bahwa meningkatkan akurasi dan halusinasi adalah prioritas penelitian yang berkelanjutan dari perusahaan. Namun, jika perluasan model berpikir terus memperburuk masalah ini, industri AI akan menghadapi masalah yang lebih mendesak dari sebelumnya.

Dalam konteks metode pelatihan tradisional mulai menunjukkan bahwa efisiensi berkurang, banyak perusahaan teknologi beralih ke model berpikir. Meskipun menyimpan sumber daya dan secara efektif dalam banyak tugas, jelas bahwa masih ada banyak hambatan untuk diatasi sehingga mereka benar -benar dapat diandalkan.
.Awesome {position: absolute; Perbatasan: 2px Solid #990000; -Moz-border-radius: 50%; -MS-Border-Radius: 50%; Border-Radius: 50%; Animasi: Bounce 2s Infinite; -Webkit-animasi: bouncing 2s Infinite; -Moz-animasi: Bounce 2s Infinite; -O-anime: Bounce 2s Infinite; Tampilan: blok inline; padding: 3px 3px 3px; Warna: #fff; Latar Belakang: #990000; Font-size: 20px; Line-Height: 1; -Moz-border-radius: 5px; -Webkit-border-radius: 5px; -Moz-box-shadow: 0 1px 3px #999; -Webkit-box-shadow: 0 1px 3px #999; Teks -Shadow: 0 -1px 1px #222; Border-Bottom: 1px Solid #222; Posisi: kerabat; Kursor: pointer; }Posting CHATGPT BARU: Lebih pintar, tapi … Fabrikasi lebih banyak perak? Pertama kali muncul Queen Mobile.


Eksplorasi konten lain dari Heart To Heart

Berlangganan untuk dapatkan pos terbaru lewat email.

Tinggalkan Balasan

Eksplorasi konten lain dari Heart To Heart

Langganan sekarang agar bisa terus membaca dan mendapatkan akses ke semua arsip.

Lanjutkan membaca