Un comentariu la această postare de pe Facebook din care nu voi cita nimic aici; doar voi comenta.

Încă un entuziast AI care umple tavanul de sloboz de atâta fericire. Antreprenor digital, REPER, campanie Nicușor Dan, progres, pace, prosperitate, și Artificial General Intelligence în sezonul 2.

Gemma-3-27B este un model mic. „Cunoștințele” vor fi inerent limitate, indiferent de „performanță” (viteză). Exemplul dat de el cu o întrebare din istoria României nu dovedește nimic.

Merge și pe 25 GB de VRAM în varianta Q4? (Reprezentarea ponderilor pe 4 biți în loc de 6 sau 8 sau originalul de floating-point 16 duce la erori mai mult sau mai puțin subtile de „judecată”, și la mai multe halucinații. Iar Gemma-3-27B este deja un model distilat, probabil din Gemini 2.0, deci mă aștept să bată câmpii la greu.)

OK, VRAM. Nu îi am. N-am nici RAM normal atâta. Bun, face Nvidia vânzare. Ce-ar zice Dr. Stránský despre asta? (Un pic șarlatan și ăla.)

„Un contabil care face munca a 10.” O, da, negreșit. „30-40% locuri de muncă pierdute.” Iar 80% din populație va lua drept literă de evanghelie toată diareea halucinată de AI?

„Speculative decoding is the shit.”

Speculative decoding seamănă ca idee cu CPU speculative execution. Nu am idee cum se interfațează o variantă mai mică a aceluiași LLM cu varianta mai mare, pentru a-l ajuta cu „educated guesses”. Din exemplul lui cu Llama-3.1-8B-Instruct nu reiese cu ce versiune de Llama-3.1-1B l-a interfațat (cine a distilat-o?)

Mai văd în al doilea ecran „MLX” în stânga numelui modelului. Înseamnă că rulează LM Studio pe un Mac cu M1/M2/M3, care nu are Nvidia, dar un M3 Max cu 128 GB RAM unificată e arhisuficient pentru 27B parametri la Q4. Autorul zice că are un MacBook cu 36 GB, dar cu siguranță că nici ăsta nu costă €400-500, cât ar costa un laptop care satisface nevoile reale ale unui om obișnuit.

Din entuziasmul comentatorilor: „A apărut Gemini în Gmail. Și a indexat toate emailurile anterioare, și creează niște răspunsuri folosind emailurile anterioare de m-a lăsat praf. Mie mi-a redus mult dintr-o treabă foarte monotonă… și e și gratis. În rest, eu LLM-urile locale nu le folosesc decât pt. sumarizări. Din experiență, phi4-14b e cel mai bun în română pt. sumarizare. E peste Gemma3-12b și peste llama3-8b. La traduceri e mai bun Gemma3, din care am văzut, dar am făcut puține teste. Le-am enumerat pe astea, că astea încap cuantizate pe o placă video cu 16GB VRAM. Extragerea anumitor elemente din text rămâne aleatoriu pt. modelele astea locale, pt. că nu au acces la tool-urile la care au acces modelele online. Și e prea multa muncă ca să caut și să adaptez anumite tool-uri pt. modelele locale.”

Dar de unde știi că a identificat toate elementele relevante din mail-urile anterioare?

Altul, mai cu mintea pe-acasă: „tocmai că nu am nevoie de sumarizări. Oricum trebuie să citesc eu textul. Eu am nevoie să îmi găsească documentele care se referă la situații bine definite, dar care necesită o analiză complexă pe text, dintr-o listă de sute de mii de documente. Mai concret, jurisprudența pertinentă pe o speță dată. În acest moment ce am testat nu este în stare de analiza aceea a textului care să îi permită chestia asta.”

Mai sunt platforme și tehnologii de studiat, dar mă resimt în stomac. Parcă văd că 30% din PIB și 50% din neuronii încă activi ai oamenilor se vor irosi pentru a crea și studia aceste imense mașinării de labă intelectuală la nivel planetar și intergalactic.

S-a dus dracu’ ziua.

Ce nu am comentat pe FB (oricum comentariul de acolo nu pe contul meu și nici pe cel al autorului postării): din pagina Gemma-3, a few pointers:

● Platforma Unsloth (Fine-tune & Run Gemma 3), care la nivelul Free:
— Supports Mistral, Gemma
— Supports LLama 1, 2, 3
— Single GPU support
— Supports 4 bit, 16 bit LoRA
Cu bani… „Contact us”.

● Platforma Kaggle (Gemma 3). The models and datasets are free.
Kaggle also provides free cloud-based Jupyter Notebooks where you can write and run code (Python, R, etc.). You get:
— Up to 20 hours per week of CPU runtime (4-core CPU, ~20 GB RAM).
— Up to 40 hours per week of GPU runtime (typically a single NVIDIA P100, 16 GB VRAM) for machine learning tasks.
—These limits reset weekly, and no credit card is required.
Astea nu se găsesc scrise pe căcatul ăla de site. Poate doar după ce-ți faci cont. L-am întrebat pe Grok, și asta mi-a răspuns.

● Pe Hugging Face: Welcome Gemma 3: Google’s all new multimodal, multilingual, long context open LLM.

Un LLM în execuție locală. Nu bate până în tavan.

Am rulat și eu local, că trebuie să încerce omul de toate (nu și anal, methinks).

Sunt multe moduri complicate de a rula astfel de modele în Cloud. Nu le-am menționat nicăieri, pentru că efortul necesar mi se pare overkill. („Mai mare daraua decât ocaua.”)

Deja văd gazilioane, catralioane de soluții tâmpite promovate de trepanați entuziaști. Cloud-ul LLM se ocupă cu el însuși, este un scop în sine. Se umflă și consumă resurse hardware și energie doar pentru ca o masă de roboți biologici să juiseze de la asta, pentru ca un grup de potentați să-și frece mâinile că vor înlocui oamenii cu boți, și pentru ca o parte a gloatei să se entuziasmeze, apoi să se îngrijoreze pentru propriile locuri de muncă.

Voiam și eu, ca tot omul, să-mi văd de viața mea. Și să mă pot bucura de evoluțiile tehnologice („les avancées technologiques”) în măsura posibilului, dar în loc de asta trebuie să constat că trăiesc pe o planetă care a luat-o complet razna.

E și ăsta un mod de a distruge o civilizație.