How I Cloned My Voice & Avatar in 2025

How I Cloned My Voice & Avatar in 2025: The Complete Tutorial (Even AI Experts Are Shocked)

(de la min 12 in video)
Conform tutorialului oferit de Julia McCoy, procesul de creare a unei clone digitale (voce și avatar) de înaltă calitate în 2025 implică utilizarea a două instrumente principale: Eleven Labs pentru voce și HeyGen pentru avatar.

Iată pașii detaliați pentru realizarea clonei:

1. Pregătirea datelor de antrenament (Cea mai importantă etapă)

Calitatea setului de date încărcat determină cât de realistă va fi clona.

  • Pentru Voce (Eleven Labs):
    • Aveți nevoie de aproximativ 1 oră și 20 de minute de înregistrare audio curată (format .wav).
    • Reguli stricte: Fără muzică de fundal, fără tăieturi cu alți vorbitori și fără zgomote de tip „pop” de la microfon.
    • Consistență: Folosiți același microfon pe tot parcursul înregistrării pentru a evita discrepanțele ciudate în vocea finală.
  • Pentru Avatar (HeyGen):
    • Sunt necesare între 3 și 5 clipuri video, de maximum 5 minute fiecare.
    • Înregistrările trebuie făcute la rezoluție 4K cu un DSLR, vorbind direct la cameră.
    • Evitați „jump cuts”: Înregistrarea trebuie să fie continuă și naturală.
    • Aspect: Purtați tricouri sau cămăși diferite în clipuri pentru ca avatarul să pară dinamic (uman), nu repetitiv.
    • Gesturi: Includeți manierele voastre naturale, dar păstrați mâinile sub nivelul pieptului. Nu numărați pe degete în timpul antrenamentului, altfel avatarul va repeta gestul obsesiv.

2. Clonarea Vocii (Professional Voice Cloning - PVC)

Julia recomandă utilizarea planului „Creator” în Eleven Labs pentru a accesa tehnologia de clonare profesională.

  1. Accesați secțiunea „Voices”, selectați „Add New Voice” și alegeți Professional Voice Clone.
  2. Încărcați fișierul audio de antrenament.
  3. Verificarea: Persoana a cărei voce este clonată trebuie să citească un text în timp real pentru a confirma identitatea (nu puteți folosi doar fișiere pre-înregistrate aici).
  4. Procesarea durează, de regulă, câteva ore.

3. Crearea Avatarului (HeyGen)

Este necesar planul „Team” pentru a debloca funcția de Custom Video Avatar.

  1. În interfața HeyGen, selectați „Create Avatar” și apoi „Instant Avatar”.
  2. Încărcați imaginile video de antrenament (cele 2-5 minute de material 4K).
  3. Verificarea video: Trebuie să înregistrați o declarație de consimțământ în timp real, citind un cod de acces afișat pe ecran.
  4. Clona de bază este gata în 5-10 minute.
  5. Adăugarea de „Looks”: Încărcați fișierele video suplimentare (cu haine diferite) ca „look-uri” noi pentru a putea schimba aspectul avatarului în videoclipurile viitoare.

4. Integrarea și Producția Finală

După ce ambele elemente sunt gata, acestea trebuie unite pentru a genera conținut:

  • Conectarea API: Obțineți cheia API din Eleven Labs și introduceți-o în HeyGen (secțiunea de integrare „third-party voice”).
  • Selectarea vocii: Alegeți vocea PVC din Eleven Labs în locul vocii implicite din HeyGen, deoarece diferența de calitate este „insane” (uluitoare).
  • Optimizarea scriptului:
    • Scrieți scriptul folosind un instrument AI (precum Claude) antrenat pe stilul vostru de scriere.
    • Regulă de aur: Înlocuiți toate numerele și simbolurile cu cuvinte (ex: scrieți „cincizeci la sută” în loc de „50%” și „două mii treizeci” în loc de „2030”) pentru a asigura o pronunție corectă.
    • Împărțiți textul în paragrafe pentru a crea pauze naturale.
  • Submit: Setați videoclipul la 30 FPS și generați rezultatul final.

McCoy subliniază că, deși clona este aproape perfectă, adăugarea unei note umane prin editare (de către un producător video) ajută la menținerea conexiunii cu publicul.


==========================================

Procesul de Professional Voice Cloning (PVC) în ElevenLabs necesită, în primul rând, activarea unui abonament de tip Creator. Cel mai critic pas este pregătirea datelor de antrenament, fiind recomandat un set de date de aproximativ o oră și 20 de minute (80-90 de minute) de înregistrare audio curată. Fișierele trebuie să fie în format .wav și să conțină exclusiv vocea persoanei care urmează să fie clonată, fără muzică de fundal, zgomote de tip „pop” ale microfonului sau alte voci. Este esențial ca înregistrările să fie consistente, utilizând același microfon pe tot parcursul antrenamentului pentru a asigura o calitate uniformă a vocii digitale.

După pregătirea datelor, se accesează secțiunea „Add New Voice” și se selectează opțiunea Professional Voice Clone. Se încarcă fișierele audio (cu o limită de până la 1500 MB), se denumește vocea și se oferă o scurtă descriere a acesteia. Un pas obligatoriu este verificarea în timp real, în care persoana a cărei voce este clonată trebuie să citească un script personalizat afișat de platformă pentru a confirma identitatea și drepturile de utilizare. Odată finalizată verificarea, procesarea și antrenarea modelului durează, de regulă, câteva ore înainte ca vocea clonată să devină disponibilă pentru utilizare.

Pentru a obține cele mai bune rezultate, se recomandă ca înregistrarea să fie făcută într-un moment de calm, deoarece platforma va prelua și manierele vocale prezente în fișierele de antrenament. În plus, la utilizarea vocii pentru a genera conținut, este indicat ca în scripturile scrise toate numerele și procentele să fie transformate în cuvinte (de exemplu, „cincizeci la sută” în loc de „50%”) pentru a asigura o pronunție corectă.

Comentarii

Postări populare de pe acest blog

Războaiele prezentului și viitorul războaielor: Anthropic vs Guvernul American!

Oxidul Nitric - factori epigenetici care cresc NO intre care si isonul psaltic

Descoperirea tunelării cuantice macroscopice si meditatia transcendentala