shauncastic.com

shauncastic.com

Podcast af Shauncastic!

JUAL DOMAIN AGED MURAH

Begrænset tilbud

3 måneder kun 9,00 kr.

Derefter 99,00 kr. / månedIngen binding.

Kom i gang

Alle episoder

324 episoder
episode Model teks-ke-speech open source baru yang disebut DIA telah tiba untuk menantang Elevenlabs, Openai dan banyak lagi artwork
Model teks-ke-speech open source baru yang disebut DIA telah tiba untuk menantang Elevenlabs, Openai dan banyak lagi

Bergabunglah dengan buletin harian dan mingguan kami untuk pembaruan terbaru dan konten eksklusif tentang liputan AI terkemuka di industri. Pelajari lebih lanjut ---------------------------------------- Startup dua orang dengan nama Nari Labs telah memperkenalkan DIA, model 1,6 miliar parameter teks-ke-speech (TTS) yang dirancang untuk menghasilkan dialog naturalistik langsung dari petunjuk teks-dan salah satu penciptanya mengklaim bahwa ia melampaui kinerja penawaran kepemilikan yang bersaing dari generasi seperti ElevenLabs, Google Hit Notebooklm AI POPREOMLM AI POPREOM POPREOM. Itu juga bisa mengancam penyerapan GPT-4O-Mini-TTS Openai baru-baru ini. “Fitur podcast NotebookLM NotebookLM dia sambil melampaui ElevenLabs Studio dan Model Terbuka Sesame dalam kualitas,” kata Toby Kim, salah satu co-pencipta Nari dan Dia, pada sebuah pos dari akunnya di jejaring sosial X. Dalam sebuah posting yang terpisah, Kim mencatat bahwa model itu dibangun dengan “nol dana,” dan ditambahkan di utas: “… kami bukan ahli dari awal. Semuanya dimulai ketika kami jatuh cinta dengan fitur podcast Notebooklm ketika kami mencoba setiap tahun lalu. Kim lebih lanjut mengkredit Google karena memberinya dan akses kolaborator ke chip unit pemrosesan Tensor (TPU) perusahaan untuk melatih DIA melalui cloud penelitian Google. Kode dan bobot Dia – set koneksi model internal – sekarang tersedia untuk diunduh dan penyebaran lokal oleh siapa pun dari memeluk wajah atau github. Pengguna individu dapat mencoba menghasilkan ucapan darinya di ruang wajah yang memeluk. KONTROL CANGGIH DAN LEBIH BANYAK FITUR YANG DAPAT DISESUAIKAN DIA mendukung fitur bernuansa seperti nada emosional, penandaan speaker, dan isyarat audio nonverbal – semua dari teks biasa. Pengguna dapat menandai putaran speaker dengan tag seperti [S1] Dan [S2]dan termasuk isyarat seperti (tertawa), (batuk), atau (membersihkan tenggorokan) untuk memperkaya dialog yang dihasilkan dengan perilaku nonverbal. Tag -tag ini ditafsirkan dengan benar oleh DIA selama generasi – sesuatu yang tidak andal didukung oleh model lain yang tersedia, menurut halaman contoh perusahaan. Model ini saat ini hanya bahasa Inggris dan tidak terikat dengan suara pembicara tunggal, menghasilkan suara yang berbeda per run kecuali pengguna memperbaiki benih generasi atau memberikan prompt audio. Pengkondisian audio, atau kloning suara, memungkinkan pengguna memandu nada bicara dan persamaan suara dengan mengunggah klip sampel. Nari Labs menawarkan kode contoh untuk memfasilitasi proses ini dan demo berbasis gradio sehingga pengguna dapat mencobanya tanpa pengaturan. PERBANDINGAN DENGAN ELEVENLABS DAN WIJEN Nari menawarkan sejumlah file audio contoh yang dihasilkan oleh DIA di situs web Notion-nya, membandingkannya dengan saingan pidato-ke-teks terkemuka lainnya, khususnya ElevenLabs Studio dan Sesame CSM-1B, yang lemari sebuah model teks-ke-speech baru dari co-pencipta headset Oculus Brendan Iribe yang pergi ke suatu tahun awal tahun ini. Contoh berdampingan yang dibagikan oleh Nari Labs menunjukkan bagaimana Dia mengungguli kompetisi di beberapa bidang: Dalam skenario dialog standar, dia menangani waktu alami dan ekspresi nonverbal dengan lebih baik. Misalnya, dalam skrip yang diakhiri dengan (tertawa), dia menafsirkan dan memberikan tawa yang sebenarnya, sedangkan elevenlab dan penggantian tekstual output wijen seperti “haha”. Misalnya, inilah dia… … Dan kalimat yang sama diucapkan oleh Elevenlabs Studio Dalam percakapan multi-giliran dengan rentang emosional, DIA menunjukkan transisi yang lebih halus dan pergeseran nada. Satu tes termasuk adegan darurat yang dramatis dan bermuatan emosional. DIA memberikan stres urgensi dan pembicara secara efektif, sementara model yang bersaing sering meratakan pengiriman atau mondar -mandir yang hilang. Dia dengan unik menangani skrip nonverbal saja, seperti pertukaran lucu yang melibatkan batuk, mengendus, dan tertawa. Model yang bersaing gagal mengenali tag ini atau melewatkannya sepenuhnya. Bahkan dengan konten yang rumit secara ritmis seperti lirik rap, DIA menghasilkan ucapan bergaya kinerja yang memelihara tempo. Ini kontras dengan output yang lebih monoton atau terputus -putus dari ElevenLabs dan Model 1B Sesame. Menggunakan petunjuk audio, DIA dapat memperluas atau melanjutkan gaya suara speaker ke baris baru. Contoh menggunakan klip percakapan sebagai benih menunjukkan bagaimana Dia membawa sifat -sifat vokal dari sampel melalui sisa dialog yang ditulis. Fitur ini tidak didukung secara kuat di model lain. Dalam satu set tes, Nari Labs mencatat bahwa demo situs web terbaik Wijen kemungkinan menggunakan versi internal 8B dari model daripada pos pemeriksaan 1B publik, menghasilkan celah antara kinerja yang diiklankan dan aktual. AKSES MODEL DAN SPESIFIKASI TEKNOLOGI Pengembang dapat mengakses DIA dari Repositori GitHub Nari Labs dan halaman Model Wajah Memeluknya. Model ini berjalan pada Pytorch 2.0+ dan CUDA 12.6 dan membutuhkan sekitar 10GB VRAM. Inferensi pada GPU kelas perusahaan seperti NVIDIA A4000 menghasilkan sekitar 40 token per detik. Sementara versi saat ini hanya berjalan pada GPU, Nari berencana untuk menawarkan dukungan CPU dan rilis terkuantisasi untuk meningkatkan aksesibilitas. Startup ini menawarkan pustaka Python dan alat CLI untuk merampingkan penyebaran lebih lanjut. Fleksibilitas dia membuka kasus penggunaan dari pembuatan konten hingga teknologi membantu dan sulih suara sintetis. Nari Labs juga mengembangkan versi konsumen DIA yang ditujukan untuk pengguna biasa yang ingin remix atau berbagi percakapan yang dihasilkan. Pengguna yang tertarik dapat bernyanyi melalui email ke daftar tunggu untuk akses awal. SUMBER TERBUKA SEPENUHNYA Model ini didistribusikan di bawah lisensi Apache 2.0 Source Open Open, yang berarti dapat digunakan untuk tujuan komersial – sesuatu yang jelas akan menarik bagi perusahaan atau pengembang aplikasi indie. Nari Labs secara eksplisit melarang penggunaan yang mencakup menyamar sebagai individu, menyebarkan informasi yang salah, atau terlibat dalam kegiatan ilegal. Tim ini mendorong eksperimen yang bertanggung jawab dan telah mengambil sikap terhadap penyebaran yang tidak etis. Dukungan Pengembangan Pengembangan DIA dari Google TPU Research Cloud, Program Hibah ZerogPU FACE FACE, dan pekerjaan sebelumnya pada SoundStorm, PetaEt, dan Descript Audio Codec. Nari Labs sendiri hanya terdiri dari dua insinyur-satu waktu penuh dan satu paruh waktu-tetapi mereka secara aktif mengundang kontribusi komunitas melalui server perselisihan dan github. Dengan fokus yang jelas pada kualitas ekspresif, reproduktifitas, dan akses terbuka, Dia menambahkan suara baru yang khas pada lanskap model bicara generatif. Wawasan harian tentang kasus penggunaan bisnis dengan VB setiap hari Jika Anda ingin mengesankan bos Anda, VB Daily telah Anda liput. Kami memberi Anda sendok dalam tentang apa yang dilakukan perusahaan dengan AI generatif, dari pergeseran peraturan hingga penyebaran praktis, sehingga Anda dapat berbagi wawasan untuk ROI maksimum. Baca Kebijakan Privasi Kami Terima kasih telah berlangganan. Lihat lebih banyak buletin VB di sini. Kesalahan terjadi.

22. apr. 2025 - 1 h 0 min
episode Bored Nerds with a Mic Review of “IT” 2017 artwork
Bored Nerds with a Mic Review of “IT” 2017

Brittney and Shaun have started working with Bored Nerds with a Mic! Check em out as they talk about the new IT movie!

14. sep. 2017 - 1 h 29 min
episode Shauncastic 261: It’s Not Goodbye… artwork
Shauncastic 261: It’s Not Goodbye…

Final Episode! This week Brittney and Shaun are joined by Christina and Laura as our podcast team says Goodbye. That’s right, after 261 official episodes, Shaun and Co are saying farewell as they begin a new journey. What will it be? Listen up, you may be surprised. You can now follow us at Facebook.com/Shauncastic and you can […]

07. aug. 2017 - 1 h 30 min
episode Shauncastic 260: MTV artwork
Shauncastic 260: MTV

This week Brittney and Shaun are joined by Christina as they reminiscence about the early days of MTV programming. From The State to TRL – they get in the way back machine and talk about when MTV was the cornerstone of Pop Culture. You can now follow us at Facebook.com/Shauncastic and you can also follow Shaun […]

18. maj 2017 - 1 h 19 min
episode Shauncastic 259: VHS artwork
Shauncastic 259: VHS

This week Brittney and Shaun go deep down the nostalgia hole to talk about the old media format known as VHS. They talk old school video stores, box art, mix tapes and how changed the way we watched TV. You can now follow us at Facebook.com/Shauncastic and you can also follow Shaun on Twitter as Pneumaz and […]

11. maj 2017 - 1 h 30 min
En fantastisk app med et enormt stort udvalg af spændende podcasts. Podimo formår virkelig at lave godt indhold, der takler de lidt mere svære emner. At der så også er lydbøger oveni til en billig pris, gør at det er blevet min favorit app.
En fantastisk app med et enormt stort udvalg af spændende podcasts. Podimo formår virkelig at lave godt indhold, der takler de lidt mere svære emner. At der så også er lydbøger oveni til en billig pris, gør at det er blevet min favorit app.
Rigtig god tjeneste med gode eksklusive podcasts og derudover et kæmpe udvalg af podcasts og lydbøger. Kan varmt anbefales, om ikke andet så udelukkende pga Dårligdommerne, Klovn podcast, Hakkedrengene og Han duo 😁 👍
Podimo er blevet uundværlig! Til lange bilture, hverdagen, rengøringen og i det hele taget, når man trænger til lidt adspredelse.

Begrænset tilbud

3 måneder kun 9,00 kr.

Derefter 99,00 kr. / månedIngen binding.

Eksklusive podcasts

Uden reklamer

Gratis podcasts

Lydbøger

20 timer / måned

Kom i gang

Kun på Podimo

Populære lydbøger