Generative AI & Large Language Models

18 min baca
Tujuan

Setelah ini kamu paham (1) bagaimana LLM bekerja secara intuitif, (2) apa itu token, embedding, attention, (3) cara kerja diffusion model untuk gambar, (4) cara berinteraksi dengan LLM secara efektif.

04 — Generative AI & Large Language Models

Estimasi baca: 90 menit Prasyarat: 01, 02, 03 Tujuan: Setelah ini kamu paham (1) bagaimana LLM bekerja secara intuitif, (2) apa itu token, embedding, attention, (3) cara kerja diffusion model untuk gambar, (4) cara berinteraksi dengan LLM secara efektif.


Pembukaan

Ini bagian yang membuat kamu memilih bootcamp ini. Saya akan menjelaskan dengan urutan yang banyak orang skip dan akhirnya kebingungan: kita mulai dari bagaimana LLM melihat teks, lalu naik ke bagaimana ia memprosesnya, lalu bagaimana ia menghasilkan output, baru setelah itu cara memakainya.


Bagian 1 — Discriminative vs Generative

Kita ulang dari file 01 tapi lebih dalam.

Discriminative Generative
Belajar batas keputusan antar kelas Belajar distribusi data itu sendiri
"Apakah ini kucing atau anjing?" "Generate gambar kucing baru"
P(label | input) P(input) atau P(input | context)
Output: skor/kelas Output: data lengkap (gambar, teks)
Lebih mudah Jauh lebih sulit

Analogi:

  • Discriminative: Kritikus seni. "Ini lukisan asli atau palsu?"
  • Generative: Pelukis. "Lukislah Mona Lisa baru."

Pelukis perlu paham seluruh struktur lukisan — proporsi wajah, pencahayaan, komposisi. Kritikus cukup pintar membedakan. Itulah kenapa generative model jauh lebih sulit dilatih.


Bagian 2 — Apa Itu LLM?

Large Language Model. Tiga kata, masing-masing penting:

  • Large — jumlah parameter (weight) sangat besar. GPT-3 punya 175 miliar parameter. Claude/GPT-4 ratusan miliar+. Llama 3.1 ada versi 405 miliar.
  • Language — fokus pada bahasa (teks).
  • Model — neural network (biasanya Transformer).

Bayangkan Skala "Large"

  • Otak kamu punya ~86 miliar neuron, ~100 triliun koneksi (synapses)
  • GPT-3 punya 175 miliar parameter (mirip "weight koneksi")
  • Frontier model 2026 (GPT-5, Claude 4.x, Gemini 3, dll) sudah jauh di atas itu

Ini bukan berarti LLM secerdas otak. Otak jauh lebih efisien dan punya mekanisme yang berbeda. Tapi skala parameter LLM modern memang besar.

Tugas Inti LLM: Tebak Kata Berikutnya

Yang dilatih ke LLM konyol sederhananya:

"Tebak kata berikutnya dari konteks ini."

Contoh:

Konteks: "Hari ini saya pergi ke pasar untuk membeli ___"

Model menghitung probabilitas:

  • "sayur" → 35%
  • "buah" → 25%
  • "ikan" → 15%
  • "ayam" → 10%
  • ...

Model memilih (atau sampling) salah satu. Lalu konteks bertambah, lanjut tebak kata berikutnya. Begitu seterusnya sampai jawaban penuh.

Yang mengejutkan: dengan latihan miliaran kali pada ratusan miliar kata dari internet, kemampuan "tebak kata berikutnya" ini memunculkan kemampuan seperti:

  • Berdialog koheren
  • Menulis kode
  • Logika sederhana
  • Penalaran multi-langkah
  • Pemahaman konteks panjang

Ini disebut emergent abilities — fenomena dimana kemampuan baru muncul saat skala melewati threshold tertentu, tanpa diprogram eksplisit.

Insight Filosofis: Apakah LLM "mengerti"? Pertanyaan terbuka. Yang jelas, output-nya seringkali sulit dibedakan dari pemahaman. Untuk tujuan praktis (pakai LLM membuat aplikasi), perdebatan filosofis ini bisa kita simpan dulu.


Bagian 3 — Token: Cara LLM Melihat Teks

LLM tidak melihat huruf atau kata. Dia melihat token.

Apa Itu Token?

Token = unit terkecil yang dipahami model. Bisa berupa:

  • 1 kata penuh ("rumah")
  • Bagian dari kata ("ber-" + "main")
  • Tanda baca (".", "!", "?")
  • Karakter spesial (newline, tab)

Contoh Tokenisasi

Kalimat: "Halo, saya belajar AI"

Mungkin di-tokenize jadi:

["Halo", ",", " saya", " belajar", " AI"]

5 token. Setiap token diberi ID angka (misal: Halo=21345, ","=11, dst). Model melihatnya sebagai urutan angka.

Kenapa Ini Penting?

  1. Pricing API — kamu bayar per token. Kalimat panjang = banyak token = mahal.
  2. Context window — LLM punya batas berapa token bisa diproses sekaligus. GPT-4 ~128k token. Claude 200k. Gemini 1M+. Tahu batas ini penting saat bikin aplikasi.
  3. Bahasa non-Inggris — bahasa Indonesia/Mandarin/Arab biasanya butuh lebih banyak token per kalimat dibanding Inggris (karena tokenizer awalnya dilatih dominan bahasa Inggris). Aplikasi LLM dalam bahasa Indonesia jadi lebih mahal.

Algoritma Tokenisasi Populer

  • BPE (Byte Pair Encoding) — dipakai GPT
  • WordPiece — dipakai BERT
  • SentencePiece — dipakai T5, Llama

Tools: kamu bisa lihat tokenisasi langsung di platform.openai.com/tokenizer. Coba paste kalimat Indonesia dan lihat berapa token-nya.


Bagian 4 — Embedding: Token Berubah Jadi Vektor

LLM tidak memproses ID angka mentah. Setiap token ID diubah jadi vektor (deret angka, biasanya 768 atau 1536 atau lebih).

Apa Itu Embedding?

Embedding = representasi vektor dari token (atau kata, kalimat, dokumen).

"kucing"  → [0.2, -0.5, 0.8, 0.1, ..., 0.4]  (768 angka)
"anjing"  → [0.3, -0.4, 0.7, 0.2, ..., 0.5]  (768 angka)
"meja"    → [-0.8, 0.1, -0.3, 0.6, ..., -0.2] (768 angka)

Kenapa Embedding Magis?

Yang luar biasa: vektor mirip = makna mirip.

Vektor "kucing" dan "anjing" akan dekat di ruang 768-dimensi (keduanya hewan peliharaan). Vektor "meja" akan jauh dari keduanya.

Bahkan operasi matematika di embedding bisa menangkap relasi semantik:

vektor("raja") - vektor("pria") + vektor("wanita") ≈ vektor("ratu")

Ini bukan trik. Embedding menemukan struktur makna dari miliaran kalimat training.

Cara Visual Membayangkan Embedding

Bayangkan ruang 3D (kita pakai 3D karena 768D tidak bisa dibayangkan):

  • Hewan peliharaan ngumpul di pojok kiri atas
  • Buah-buahan di pojok kanan
  • Profesi di tengah
  • Emosi di bawah
  • ...

LLM "memahami" makna lewat posisi token di ruang vektor, bukan lewat aturan grammar.

Penggunaan Embedding di Bootcamp

Embedding adalah fondasi RAG (Retrieval-Augmented Generation) yang akan kamu pelajari di Fase 7 dan capstone.

Cara kerja singkat RAG:

  1. Pecah dokumen jadi potongan kecil (chunk)
  2. Convert tiap chunk jadi embedding vektor
  3. Simpan di vector database (Chroma, Pinecone, dll)
  4. User bertanya → ubah pertanyaan jadi embedding
  5. Cari chunk yang embedding-nya paling mirip (cosine similarity)
  6. Kasih chunk-chunk itu + pertanyaan ke LLM sebagai konteks
  7. LLM menjawab berdasarkan konteks yang relevan

Tanpa paham embedding, RAG akan terasa "magic" tanpa kamu tahu kenapa kerja. Sekarang kamu tahu.


Bagian 5 — Transformer & Attention

Kamu tidak perlu paham matematika Transformer sekarang (akan dibahas detail di Fase 6). Tapi paham konsep attention itu wajib.

Masalah: Memahami Konteks

Kalimat:

"Bank tepi sungai itu indah."

"Bank Mandiri itu terkenal."

Kata "bank" sama, tapi maknanya beda. Bagaimana model tahu?

Jawaban: dari konteks kata-kata di sekitarnya. "Tepi sungai" → bank = pinggiran sungai. "Mandiri" + nama → bank = institusi keuangan.

Attention — Inti Transformer

Attention adalah mekanisme yang membuat model bisa "memperhatikan" kata-kata lain dalam kalimat saat memproses tiap kata.

Analogi: Membaca Novel

Saat kamu membaca novel dan ketemu "ia", kamu otomatis melirik balik ke kalimat-kalimat sebelumnya untuk tahu "ia" itu siapa.

Attention persis seperti itu. Saat memproses kata "ia", model secara otomatis menentukan kata mana di konteks yang paling relevan, lalu memberinya bobot perhatian besar.

Self-Attention

Tiap kata di kalimat menghitung "seberapa relevan" semua kata lain bagi dirinya. Hasilnya: representasi tiap kata yang dipengaruhi konteks.

Contoh visualisasi (kira-kira):

"Kucing itu lapar karena belum makan"

Kata "lapar" akan punya attention tinggi ke "Kucing" (subject) dan "belum makan" (penyebab). Attention rendah ke "itu" dan "karena" (kata sambung).

Kenapa Transformer Mengalahkan RNN/LSTM?

RNN memproses kata satu per satu (urut), dan informasi dari kata pertama bisa "lupa" saat sampai kata ke-100.

Transformer memproses semua kata sekaligus dengan attention. Tidak ada masalah lupa-jangka-panjang. Plus bisa diparalelkan di GPU dengan sangat efisien.

Inilah revolusi paper "Attention Is All You Need" (2017). Tanpa transformer, tidak akan ada GPT, Claude, Gemini.


Bagian 6 — Cara LLM Dilatih (Pipeline Lengkap)

Kita sudah singgung di file 02. Sekarang lebih detail.

Tahap 1: Pretraining (Self-Supervised)

  • Data: ratusan miliar/triliun token dari internet (Common Crawl, Wikipedia, buku, GitHub, dll)
  • Tugas: tebak kata berikutnya
  • Durasi: berbulan-bulan, ribuan GPU
  • Biaya: jutaan hingga puluhan juta USD untuk model frontier
  • Output: base model — sudah bisa "ngomong" tapi tidak terlalu sopan, kadang ngawur

Tahap 2: Supervised Fine-Tuning (SFT)

  • Data: ratus ribu pasangan "instruksi → respons ideal" yang ditulis manusia
  • Tugas: ikuti instruksi seperti contoh ideal
  • Output: model yang mengikuti instruksi dengan baik

Contoh data SFT:

Instruksi: "Tuliskan email penolakan job offer dengan sopan."
Respons: "Yang terhormat HRD..."

Tahap 3: RLHF — Reinforcement Learning from Human Feedback

  • Data: respon model di-rank manusia (mana yang lebih baik)
  • Tugas: maksimalkan skor "kepuasan manusia"
  • Output: model yang terasa ramah, aman, helpful

Tanpa RLHF, model akan kasar, nyebur ke topik berbahaya, tidak fokus. RLHF yang membuat ChatGPT/Claude/Gemini terasa "berkepribadian".

Tahap 4 (Modern): Constitutional AI / RLAIF

Anthropic (pembuat Claude) memelopori cara dimana AI lain memberi feedback (bukan manusia), berdasarkan "konstitusi" (set prinsip). Lebih scalable dari RLHF murni.

Visualisasi Pipeline

Cara Membaca Diagram: Pipeline 4 fase yang berjalan dari kiri-atas (Internet) → Pretraining → Base Model, lalu turun ke SFT → Instruct Model → RLHF, dan akhirnya HHH Model → Deployment. Tiap fase punya purpose berbeda.

Walkthrough Step-by-Step:

  1. Internet Data (ratusan miliar token) dipakai untuk Pretraining dengan tugas next-token prediction.
  2. Hasilnya Base Model — bisa "ngomong" tapi belum sopan, kadang ngawur.
  3. SFT (Supervised Fine-Tuning) pakai contoh percakapan ideal yang ditulis manusia → Instruct Model yang ikuti instruksi.
  4. RLHF (Reinforcement Learning from Human Feedback) — manusia ranking respons, model belajar pilih yang lebih disukai.
  5. Hasilnya HHH Model (Helpful, Harmless, Honest) yang siap di-Deploy sebagai ChatGPT/Claude/Gemini.

Analogi Sehari-hari: Seperti tahapan jadi profesional. Pretraining = baca semua buku perpustakaan (luas tapi acak). SFT = magang dengan mentor (lihat contoh ideal). RLHF = kerja real, dapat feedback dari atasan, perbaiki gaya. Deployment = jadi senior yang dipakai klien. Tanpa salah satu fase, tidak akan jadi profesional matang.

Diagram statis Mermaid sebagai fallback:

flowchart TD
    A["🌐 Internet<br/>(ratusan miliar token)"] --> B["Pretraining<br/>(self-supervised)"]
    B --> C["Base Model"]
    C --> D["Supervised Fine-Tuning<br/>(SFT)"]
    D --> E["Instruct Model"]
    E --> F["RLHF / Constitutional AI"]
    F --> G["✅ Helpful, Harmless,<br/>Honest Model"]
    G --> H["🚀 Deployment<br/>ChatGPT, Claude, Gemini"]

Bagian 7 — Cara Memakai LLM (Inference)

Setelah model siap, gimana kita pakai?

Parameter Inference Penting

1. Temperature

Mengontrol "kreativitas" output. Range biasanya 0–2.

  • 0 → output paling deterministik. Model selalu pilih kata dengan probabilitas tertinggi. Cocok untuk: ekstraksi data, kode, jawaban faktual.
  • 0.7 → balance kreatif tapi koheren. Default kebanyakan aplikasi.
  • 1.5+ → sangat kreatif/random. Bisa nyeleneh. Cocok untuk: brainstorming, puisi.

Analogi: Suhu pikiran. Dingin = pertimbangan terukur. Panas = ide liar.

2. Top-p (Nucleus Sampling)

Hanya pilih kata dari "top kemungkinan" yang totalnya p%.

  • top-p=0.9 → ambil hanya kata-kata yang totalnya 90% probability. Lebih fokus.
  • top-p=1.0 → semua kata bisa muncul.

3. Top-k

Hanya pilih dari k kata teratas. Mirip top-p tapi pakai jumlah, bukan persentase.

4. Max Tokens

Batas maksimum output. Jangan lupa set ini, kalau tidak model bisa terus generate sampai konteks penuh.

5. Stop Sequences

Kata/string yang menghentikan generasi. Misal stop: "\n\n" → berhenti saat ada baris kosong.


Bagian 8 — Prompt Engineering Dasar

Bootcamp punya modul khusus 16 jam soal ini, tapi mari kasih dasar dulu.

Anatomy Prompt yang Baik

[ROLE] - "Kamu adalah copywriter senior."
[TASK] - "Tulis caption Instagram untuk produk skincare."
[CONTEXT] - "Target audience: wanita 25-35, urban."
[CONSTRAINTS] - "Maksimal 150 kata. Pakai 3 emoji. Sertakan call-to-action."
[FORMAT] - "Format: 1 hook line, 1 paragraf body, 1 CTA."
[EXAMPLES] - "Contoh: '✨ Kulit glowing tanpa drama? ...'"

Teknik Prompt Engineering

1. Zero-shot

Langsung tanya tanpa contoh.

"Klasifikasi sentiment review berikut: positif/negatif/netral.
Review: 'Produk biasa saja, kemasan rusak.'"

2. Few-shot

Beri beberapa contoh dulu, lalu tanya.

Contoh 1:
Review: "Sangat puas, akan beli lagi!"
Sentiment: positif

Contoh 2:
Review: "Mengecewakan, tidak sesuai gambar."
Sentiment: negatif

Sekarang:
Review: "Lumayan, harga sebanding kualitas."
Sentiment: ?

Few-shot biasanya lebih akurat dari zero-shot untuk task spesifik.

3. Chain-of-Thought (CoT)

Suruh model "berpikir step-by-step".

Tanpa CoT:
"Berapa hasil dari (12 × 7) + (15 × 3)?"
→ kadang model langsung tebak, sering salah

Dengan CoT:
"Berapa hasil dari (12 × 7) + (15 × 3)? Pikirkan langkah demi langkah.""12 × 7 = 84. 15 × 3 = 45. 84 + 45 = 129."
→ jauh lebih akurat

Ini terobosan besar. Untuk soal logika/matematika, selalu pakai CoT.

4. Role Prompting

Beri model peran spesifik.

"Kamu adalah dokter spesialis kulit dengan 20 tahun pengalaman.
Pasien tanya: 'Kenapa wajah saya jerawatan terus?'"

Output akan terasa lebih ahli.

Aturan Emas Prompt Engineering

  1. Spesifik selalu menang. "Tulis essay" buruk. "Tulis essay 500 kata tentang dampak AI di pendidikan, format 3 paragraf, gaya akademik" baik.
  2. Kasih konteks. Model tidak tahu yang tidak kamu kasih tahu.
  3. Kasih contoh kalau bisa. Few-shot mengalahkan zero-shot di hampir semua task.
  4. Iterasi. Prompt pertama jarang sempurna. Refine berdasarkan output.
  5. Jangan paksa. "JANGAN BOLEH SALAH!!!" tidak membantu. Spesifikasi yang jelas membantu.

Bagian 9 — Generative AI Selain Teks

Bootcamp Dicoding mencakup teks, gambar, audio. Mari overview yang non-teks.

Generative Image — Diffusion Model

Contoh: DALL-E, Midjourney, Stable Diffusion.

Cara Kerja Konseptual

Diffusion model dilatih dengan tugas yang sangat menarik:

  1. Ambil gambar asli
  2. Tambahkan noise (gangguan acak) sedikit demi sedikit, sampai jadi noise total
  3. Latih model membalik proses: dari noise total, perlahan "bersihkan" sampai jadi gambar bermakna

Analogi: Pematung yang melihat balok marmer. Dia "menghilangkan" yang tidak perlu, sampai patung tersembunyi muncul.

Saat inference:

  1. Mulai dari noise acak
  2. Berdasarkan prompt teks ("kucing astronot di mars"), model bertahap "membersihkan" noise menuju gambar yang sesuai prompt
  3. Setelah ~50 langkah, gambar jadi

Komponen Penting

  • U-Net — arsitektur neural network yang dipakai untuk denoising
  • CLIP — model dari OpenAI yang menghubungkan teks dengan gambar (penting untuk text-to-image)
  • Latent Space — Stable Diffusion bekerja di "ruang laten" yang lebih kecil (efisien)

Generative Audio

  • Text-to-Speech (TTS): ElevenLabs, OpenAI TTS — generate suara dari teks
  • Music Generation: Suno, MusicGen, Riffusion — generate lagu dari prompt
  • Voice Cloning: clone suara spesifik dengan beberapa detik sample

Generative Video

  • Sora (OpenAI) — text-to-video, kualitas mengagumkan
  • Runway, Pika — alternatif komersial
  • Veo (Google) — pesaing kuat

Video jauh lebih sulit dari gambar karena harus konsisten lintas frame. Ini area paling aktif riset 2025-2026.

Generative Code

Sebenarnya masih LLM (kode = teks), tapi disebut khusus:

  • GitHub Copilot — autocomplete kode
  • Cursor — IDE dengan AI built-in
  • Claude Code — CLI assistant

Bagian 10 — Limitasi LLM yang Wajib Diketahui

Banyak yang salah pakai LLM karena tidak paham batasannya.

1. Halusinasi

LLM bisa mengarang fakta dengan percaya diri. Tidak ada mekanisme internal "saya tidak tahu" — model selalu generate sesuatu.

Contoh nyata: tanya buku yang tidak ada. Model akan menciptakan judul, penulis, tahun terbit yang terdengar masuk akal tapi fiksi.

Mitigasi: RAG (kasih konteks dokumen), instruksi "kalau tidak tahu, bilang tidak tahu", verifikasi output dengan sumber.

2. Knowledge Cutoff

Model dilatih sampai tanggal tertentu. Tidak tahu kejadian setelah itu.

GPT-4 cutoff awal 2024. Claude/Gemini bervariasi. Model yang "online" pakai web search untuk dapat info terbaru.

3. Tidak Bisa Matematika Eksak

LLM bisa salah hitung 1234 × 5678. Bukan karena bodoh, tapi karena cara kerjanya bukan kalkulator. Mitigasi: tool use — biarkan model panggil kalkulator/Python.

4. Context Window Limit

GPT-4: 128k token. Claude: 200k. Gemini: 1M+. Setelah lewat, info hilang.

5. Bias

Karena dilatih dari internet (yang bias), model mewarisi bias itu. Stereotip gender, ras, budaya bisa muncul di output.

6. Sycophancy

Model cenderung setuju dengan user untuk dapat reward RLHF. Hati-hati: saat kamu push opini, model bisa tiba-tiba berubah pikiran. Ini disebut sycophancy.

7. Prompt Injection

Serangan keamanan: input user mengandung instruksi yang membajak prompt asli. Penting saat bikin aplikasi LLM publik.


Bagian 11 — Ekosistem Tools (yang Akan Kamu Pakai)

Frontier API LLM (komersial)

  • OpenAI — GPT-4, GPT-5. Standar industri.
  • Anthropic — Claude (yang kamu pakai sekarang). Strong di reasoning, coding, safety.
  • Google — Gemini. Multimodal kuat.

Open Model (gratis, bisa self-host)

  • Llama (Meta) — paling populer
  • Mistral — efisien, dari Prancis
  • Qwen (Alibaba) — strong di multibahasa termasuk Indonesia
  • DeepSeek — Cina, cost-efficient

Tools Pengembangan

  • Hugging Face — "GitHub-nya AI". Ribuan pretrained model.
  • Ollama — jalankan LLM open di laptop sendiri
  • LangChain / LlamaIndex — framework untuk bikin aplikasi LLM
  • Vector DB: Chroma (mudah), Pinecone, Weaviate, FAISS
  • Streamlit / Gradio — bikin UI untuk demo cepat

Yang Akan Kamu Pakai di Capstone Bootcamp

Tebakan saya berdasarkan kurikulum:

  • Python + Hugging Face transformers
  • LangChain atau LlamaIndex
  • Chroma vector DB
  • API LLM (mungkin OpenAI atau Gemini, atau local model)
  • Streamlit untuk UI

Kesalahpahaman Umum (Final)

"LLM bisa ganti programmer" → LLM ganti task programmer, bukan profesi. Programmer yang pakai LLM mengganti yang tidak pakai.

"Belajar LLM = belajar prompt aja" → Prompt engineering itu satu skill dari banyak. RAG, fine-tuning, evaluation, deployment — semua perlu dipelajari.

"Open source = lebih baik dari API komersial" → Open dan komersial punya tradeoff. Komersial: kualitas tinggi, mudah, mahal jangka panjang. Open: bisa di-customize, gratis, butuh infrastruktur.

"LLM mahal banget" → Tergantung use case. GPT-4 mini / Claude Haiku / Gemini Flash sangat murah untuk task biasa.

"LLM = AGI" → LLM impressive tapi belum AGI. Masih banyak limitasi (lihat Bagian 10).


Cek Pemahaman

  • Beda discriminative vs generative
  • Apa itu token? Kenapa relevan dengan biaya API?
  • Apa itu embedding? Kenapa "vektor mirip = makna mirip"?
  • Apa itu attention? Kenapa Transformer mengalahkan RNN?
  • Sebut 3 tahap training LLM dan tujuannya masing-masing
  • Apa beda temperature 0 dan temperature 1?
  • Apa itu Chain-of-Thought? Kapan dipakai?
  • Sebut 3 limitasi LLM yang penting
  • Bagaimana cara kerja diffusion model untuk gambar (overview)?
  • Apa itu RAG? Apa peran embedding di dalamnya?

Challenge Fase 1.4

Challenge 1 — Mainkan Tokenizer (Mudah, Wajib)

Buka platform.openai.com/tokenizer.

  1. Paste 5 kalimat:

    • "Hello, how are you today?"
    • "Halo, apa kabar hari ini?"
    • "你好,今天怎么样?"
    • "1234567890"
    • "import numpy as np"
  2. Catat berapa token tiap kalimat.

  3. Tulis observasi di jurnal: bahasa apa paling efisien? Kenapa kalimat Indonesia sering lebih banyak token?

Challenge 2 — Eksperimen Temperature (Mudah, Wajib)

Pakai ChatGPT/Claude (versi gratis cukup):

  1. Tanya pertanyaan kreatif seperti "Tulis 3 ide nama startup AI di Indonesia" 5 kali. Lihat apakah jawaban berbeda.
  2. Tanya pertanyaan faktual "Siapa presiden pertama RI?" 5 kali. Apakah konsisten?

Catat: kapan kamu butuh temperature rendah, kapan tinggi?

Challenge 3 — Prompt Engineering Battle (Sedang)

Tugas: minta LLM mengklasifikasi sentiment review produk.

Versi 1 (buruk):

"Apakah review ini bagus atau jelek: 'Produk biasa saja, harganya OK lah'"

Versi 2 (baikan):

"Klasifikasikan sentiment review berikut sebagai positif, negatif, atau netral. Review: 'Produk biasa saja, harganya OK lah' Sentiment:"

Versi 3 (terbaik): kamu yang bikin, pakai few-shot + role prompting.

Coba 5 review berbeda dengan ketiga versi prompt. Catat akurasi masing-masing.

Challenge 4 — Chain-of-Thought (Sedang, Wajib)

Soal: "Jika 3 ekor kucing menangkap 3 tikus dalam 3 menit, berapa kucing yang dibutuhkan untuk menangkap 100 tikus dalam 100 menit?"

(Soal jebakan. Banyak orang langsung jawab 100. Jawaban benar: 3.)

  1. Tanya ke LLM tanpa CoT.
  2. Tanya dengan tambahan "Pikirkan langkah demi langkah."
  3. Bandingkan.

Challenge 5 — Eksplorasi Embedding (Sedang)

  1. Buka projector.tensorflow.org
  2. Pilih dataset "Word2Vec All" atau "GloVe"
  3. Cari kata "king", lihat tetangga terdekatnya
  4. Cari "computer", lihat tetangganya
  5. Coba "Indonesia"
  6. Tulis observasi di jurnal: kata-kata yang berdekatan memang punya makna mirip?

Challenge 6 — Bangun RAG Mental Model (Sulit)

Tulis di jurnal dengan kata-katamu sendiri (300 kata):

"Bagaimana ChatGPT bisa 'membaca PDF' yang saya upload, padahal model hanya bisa proses teks dengan context window terbatas?"

Petunjuk: jawaban melibatkan chunking, embedding, vector search, dan injection ke prompt.

Tujuan: kamu sudah punya mental model RAG sebelum coding di Fase 7. Saat tutorial RAG nanti, semua akan klik dengan cepat.

Challenge 7 — Diskusi (Sangat Sulit)

Tulis essay 600-800 kata: "Apakah temuan emergent abilities di LLM mendekati AGI atau cuma scaling tricks?"

Riset dulu istilah "emergent abilities" + "AGI". Berikan posisi kamu dengan argumen.

Tujuan: ini topik panas yang sering dibahas di komunitas AI. Punya opini yang well-reasoned akan membuatmu menonjol di sesi review expert.


Resource Tambahan (Sangat Disarankan)

Wajib di Fase 1

  • "The Illustrated Transformer" by Jay Alammar (jalammar.github.io/illustrated-transformer/) — visualisasi transformer terbaik di internet
  • Karpathy "Intro to LLMs" YouTube (1 jam) — overview LLM yang dalam tapi accessible

Nanti di Fase 5-7

  • Karpathy "Let's build GPT from scratch" — code transformer dari nol (Fase 6)
  • Hugging Face NLP Course — official, gratis (Fase 6-7)
  • DeepLearning.AI short courses — banyak yang gratis 1-2 jam (Fase 7)

Quote untuk Direnungkan

"The bitter lesson of AI: methods that scale with compute beat methods that bake in human knowledge." — Rich Sutton (2019)

LLM membuktikan ini. Bukan grammar rules yang menang, bukan ontologi yang menang. Yang menang: data masif + komputasi masif + arsitektur sederhana (transformer) + tugas sederhana (next-token prediction).


Selanjutnya: 05-mindset-belajar.md — sebelum mulai ngoding di Fase 2 (Python), kita pasang dulu mindset yang membuatmu jadi pembelajar terbaik. Ini sering di-skip orang dan jadi penyebab utama gagal di bootcamp.