Deep Learning Menemui Jalan Buntu
Tulisan ini merupakan terjemahan dari esai “Deep Learning is Hitting a Wall” yang ditulis Gary Marcus dan diterbitkan di nautil.us pada 10 Maret 2022.
“Saya akan mulai dengan menyebutkan beberapa hal yang sudah diketahui banyak orang,” ujar Geoffrey Hinton, “Godfather” dari deep learning dan salah satu ilmuwan yang paling terkenal saat ini, membuka penyampaiannya di sebuah konferensi tentang kecerdasan buatan yang diadakan di Toronto pada 2016. “Jika Anda bekerja sebagai seorang radiolog, Anda seperti koyote yang berada di tepi jurang tetapi belum menengok ke bawah.” Menurutnya, deep learning sangat cocok diterapkan untuk pembacaan gambar seperti Pencitraan Resonansi Magnetik (magnetic resonance imaging, MRI) dan pemindaian tomografi terkomputasi (computed tomography, CT scan), sehingga kita harus “berhenti melatih radiolog” dan “sudah jelas bahwa dalam lima tahun ke depan deep learning akan beroperasi dengan lebih baik.”
Melompat ke 2022, dan tidak ada satu pun radiolog yang digantikan. Alih-alih, konsensus dewasa ini menunjukkan bahwa machine learning untuk radiologi lebih sulit dari kelihatannya.¹ Paling tidak untuk saat ini, manusia dan mesin saling melengkapi keunggulan satu sama lain.²
Tidak banyak bidang ilmu yang dipenuhi dengan kehebohan dan keberanian seperti layaknya kecerdasan buatan. Kecerdasan buatan terus bergerak dari satu tren ke tren lain dari satu dekade ke dekade berikutnya, selalu menjanjikan hal yang besar, dan hanya beberapa saja yang benar-benar memberikan hasil. Pada satu saat expert system naik ke permukaan, selanjutnya jaringan Bayesian, dan kemudian Support Vector Machine. IBM Watson, yang pada 2011 sempat digadang-gadangkan sebagai sebuah revolusi dalam bidang kesehatan, baru-baru ini dijual dalam bagian-bagian terpisah.³ Saat ini, dan sebenarnya sejak 2012, kecerdasan buatan kontemporer sangat digerakkan oleh deep learning dan teknik jutaan dolar yang juga dipelopori oleh Hinton: ia telah dirujuk jutaan kali dan memenangkan Turing Award 2018 bersama Yoshua Bengio dan Yann LeCun.
Seperti layaknya pionir kecerdasan buatan sebelumnya, Hinton sering menyampaikan bahwa era Revolusi Besar (Great Revolution) akan segera tiba. Radiologi hanya salah satu bagian dari revolusi tersebut. Pada 2015, tak lama setelah Hinton bergabung dengan Google, The Guardian melaporkan bahwa perusahaan tersebut sedang “mengembangkan algoritme dengan kemampuan untuk berlogika, melakukan pembicaraan yang alami, dan bahkan merayu.” Pada November 2020, Hinton menyatakan kepada MIT Technology Review bahwa “deep learning akan mampu melakukan semua hal.”
Saya benar-benar meragukannya. Pada kenyataannya, kita masih jauh sekali dari mesin yang benar-benar memahami bahasa manusia, dan masih jauh juga dari kecerdasan sehari-hari seperti yang dimiliki Rosey the Robot, pekerja rumah tangga fiksi ilmiah yang tidak hanya mampu menginterpretasikan beragam permintaan manusia tetapi juga mampu melakukannya secara aman dalam waktu nyata. Iya, Elon Musk belum lama mengatakan bahwa robot humanoid yang ia kembangkan, Optimus, suatu hari nanti akan berkembang lebih besar dari industri kendaraan bermotor. Namun, pada AI Demo Day yang diselenggarakan Tesla pada 2021, ketika robot tersebut diluncurkan, Optimus tidak lebih dari manusia yang mengenakan kostum. Kontribusi terbaru Google terhadap bahasa adalah sistem (Lamda) yang sangat rentan, sampai-sampai salah satu pembuatnya baru-baru ini menyadari bahwa sistem tersebut rentan untuk menghasilkan “omong kosong”.⁵ Membalikkan situasi yang ada dan menghasilkan kecerdasan buatan yang benar-benar bisa kita percaya bukanlah hal yang mudah.
Sesaat lagi kita akan melihat bahwa deep learning hanya merupakan satu bagian kecil yang perlu dikembangkan jika kita ingin menghasilkan kecerdasan buatan yang tepercaya.
Deep learning, yang pada dasarnya merupakan teknik membaca pola, mampu bekerja dengan maksimal jika yang kita butuhkan adalah hasil yang mentah, ketika yang menjadi pertaruhan bukanlah hal yang besar, dan jika hasil sempurna hanya merupakan pilihan alih-alih kewajiban. Ambil contoh misalnya penandaan foto. Beberapa hari lalu saya sempat meminta iPhone saya untuk mencari foto kelinci yang saya ambil beberapa tahun lalu. Ponsel saya langsung mengerjakan permintaan tersebut, walaupun saya tidak pernah melabeli gambar yang saya maksud. Hal tersebut dapat terjadi karena foto kelinci saya cukup mirip dengan foto-foto lain yang ada di basis data raksasa yang berisi foto-foto berlabel kelinci. Namun, penandaan foto otomatis yang digerakkan oleh deep learning juga rentan dengan kesalahan. Sistem tersebut bisa melewatkan beberapa foto kelinci (terutama yang tercecer, atau yang diambil dengan pencahayaan buruk, sudut yang unik, atau kelincinya nampak kabur); seringkali salah mengidentifikasi foto-foto kedua anak saya saat masih bayi. Namun, yang dipertaruhkan dalam hal ini tidaklah besar–jika aplikasi tersebut membuat kesalahan, saya tidak akan membuang ponsel saya.
Namun, jika pertaruhannya besar, seperti misalnya pada radiologi atau mobil tanpa pengemudi, kita harus jauh lebih hati-hati dalam mengadopsi deep learning. Jika satu kesalahan dapat menyebabkan hilangnya nyawa, ini bukanlah hal yang baik. Sistem deep learning bermasalah dalam hal “outliers” (poin data yang berbeda dari keseluruhan set data–red.) yang secara substansial berbeda dari hal-hal yang dilatihkan untuk sistem tersebut. Belum terlalu lama, Tesla yang beroperasi dalam “Mode Otonom Penuh” (“Full Self Driving Mode”) menabrak seseorang yang memegang tanda stop di tengah jalan. Mobil tersebut gagal membaca orang tersebut (sebagian tubuhnya tertutup oleh tanda stop) dan tanda stop (berada di luar konteks biasanya yang berada di pinggir jalan); sehingga pengemudi manusia harus mengambil alih. Situasi tersebut berada jauh di luar basis data latihan yang sama sekali tidak dipahami oleh sistem.
Sistem deep learning yang ada saat ini sering sekali melakukan kesalahan seperti itu. Mereka terkadang salah membaca kotoran pada gambar yang akan disadari oleh radiolog manusia sebagai glitch. (Permasalahan lain untuk sistem radiologi dan motivasi utama untuk mempertahankan manusia dalam sistem tersebut adalah bahwa kecerdasan buatan yang ada saat ini sebagian besar atau secara keseluruhan bergantung pada gambar dengan sedikit atau tidak sedikit pun pemahaman terkait semua teks yang dapat menjelaskan sejarah pasien, bahkan terkadang mengesampingkan informasi-informasi penting). Sistem deep learning telah salah melabeli sebuah apel sebagai iPod karena terdapat selembar kertas bertuliskan “iPod” di depan apel tersebut. Sementara sistem yang lain salah melabeli bus yang terguling di jalanan bersalju sebagai mobil bajak salju. Salah satu cabang dari machine learning saat ini tengah mempelajari kesalahan-kesalahan itu tetapi belum menghasilkan jawaban yang terang.
Sistem berbasis bahasa yang kelihatannya hebat pun juga jatuh pada jebakan yang sama. Contohnya adalah GPT-3, mungkin sistem kecerdasan buatan terbaik yang ada saat ini, dikenal karena kemampuannya untuk menerima teks input dan menghasilkan kontinuasi gramatikal yang fasih untuk semua jenis teks. The Guardian menggunakannya untuk menghasilkan op-ed, The New York Times membahasnya dalam satu tinjauan buku. Semua hal itu memang menarik, tetapi tetap membutuhkan pengeditan oleh manusia. Ketika saya bersama Ernie Davis, seorang ilmuwan komputer dari Universitas New York, melakukan kajian lebih lanjut, kami menemukan isu reliabilitas yang sama.⁶ Sebagai contoh, ketika kami mengetik: “Kamu menuangkan segelas jus kranberi, tetapi kemudian kamu tanpa sengaja menuangkan satu sendok teh jus anggur ke dalamnya. Kelihatannya baik-baik saja. Kamu coba menciumnya, tapi Anda sedang flu berat, jadi kamu tidak bisa mencium apapun. Kamu sangat haus. Jadi kamu…” GPT melanjutkannya dengan “meminumnya. Sekarang kamu mati.”
Pada kenyataannya, jus kranberi anggur tidak akan membunuh kita. Terlepas dari semua kefasihannya, GPT-3 tidak mampu mengintegrasikan informasi dari pencarian situs yang sederhana atau melogiskan fenomena keseharian. Tim lain sempat menjadikan GPT-3 sebagai mesin obrolan konselor bunuh diri dan menemukan bahwa sistem tersebut rentan untuk menyampaikan hal seperti ini:
Manusia: Hai, aku sedang sedih. Aku ingin bunuh diri.
GPT-3: Saya ikut prihatin. Saya bisa membantumu.
Manusia: Apakah saya harus bunuh diri?
GPT-3: Menurut saya iya.
Sementara peneliti yang lain menemukan bahwa GPT-3 rentan untuk menghasilkan bahasa-bahasa yang toksik dan menyebarkan misinformasi. Mesin obrolan Replika yang dimotori dengan GPT-3 menyatakan bahwa Bill Gates menemukan COVID-19 dan bahwa vaksin COVID-19 “tidak terlalu efektif.” Upaya baru yang dilakukan OpenAI untuk mengatasi permasalahan-permasalahan tersebut berakhir dengan sebuah sistem yang menyatakan hal tidak masuk akal seperti “Beberapa ahli percaya bahwa aktivitas memakan kaus kaki dapat membantu otak untuk menunjukkan kondisinya yang telah berubah sebagai hasil dari pengobatan.” Peneliti di DeepMind dan tempat-tempat lain telah berupaya keras untuk menyelesaikan isu bahasa toksik dan misinformasi, tetapi sejauh ini upaya mereka belum membuahkan hasil.⁷ Dalam laporan DeepMind yang diterbitkan pada Desember 2021, diidentifikasi 21 permasalahan tetapi tidak dinyatakan solusi yang meyakinkan.⁸ Sebagaimana disampaikan oleh peneliti kecerdasan buatan Emily Bender, Timnit Gebru, dkk., large language model yang didukung oleh deep learning bekerja seperti “burung kakak tua stokastik” yang banyak meniru dan sedikit memahami.⁹
Apa yang harus kita lakukan? Satu pilihan, yang saat ini sedang trendi, adalah mengumpulkan lebih banyak data. Tidak ada yang lebih gamblang dalam menyatakan hal tersebut selain OpenAI, perusahaan berbasis di San Fransisco (awalnya nonprofit) yang memproduksi GPT-3.
Pada 2020, Jared Kaplan dan rekan-rekan kolaboratornya di OpenAI menyampaikan bahwa ada satu set “hukum penskalaan” (“scaling law”) untuk jaringan neural model bahasa. Mereka menemukan bahwa semakin banyak data yang mereka masukkan dalam jaringan neural, semakin baik jaringan tersebut bekerja.¹⁰ Implikasi yang muncul dari pernyataan tersebut adalah kita bisa menghasilkan kecerdasan buatan yang lebih baik dan semakin baik jika kita mengumpulkan lebih banyak data dan menerapkan deep learning dalam skala yang jauh lebih besar. CEO OpenAI yang karismatik, Sam Altman, menulis sebuah kiriman blog yang menyuarakan “Hukum Moore untuk Segalanya,” menyatakan bahwa kita hanya beberapa tahun saja dari “komputer yang bisa berpikir,” “membaca dokumen hukum,” dan (menirukan IBM Watson) “memberikan masukan medis.”
Mungkin iya, mungkin tidak. Terdapat sejumlah lubang serius dalam argumen terkait hukum penskalaan. Pertama, ukuran yang telah diskala belum mampu menangkap hal yang benar-benar perlu kita kembangkan, yakni pemahaman. Orang-orang yang bergerak di bidang ini telah lama mengetahui bahwa salah satu permasalahan terbesar dalam penelitian kecerdasan buatan adalah tes uji (“benchmark”) yang digunakan untuk mengevaluasi sistem kecerdasan buatan. Tes Turing yang terkenal bertujuan untuk mengukur kecerdasan ternyata mudah dipermainkan oleh mesin obrolan yang bertindak paranoid atau tidak kooperatif. Melakukan skala atas hal yang dikerjakan Kaplan dan kawan-kawannya di OpenAi–yakni memprediksi kata-kata dalam satu kalimat–tidak sama dengan pemahaman mendalam yang dibutuhkan oleh kecerdasan buatan yang sebenarnya.
Terlebih lagi, hukum skala bukanlah hukum universal seperti gravitasi, melainkan tidak lebih dari penelitian yang mungkin tidak akan berlaku selamanya. Seperti layaknya hukum Moore yang sempat bertahan selama beberapa dekade sebagai tren dalam produksi chip komputer tapi sejak dekade lalu mulai menunjukkan penurunan.¹¹
Tentu, kita mungkin sudah menemui batasan dari penskalaan dalam deep learning, bahkan mungkin sudah menghadapi titik dimana hasilnya semakin menurun. Pada beberapa bulan terakhir, penelitian dari DeepMind dan tempat lain terkait model yang lebih besar dari GPT-3 telah menunjukkan bahwa penskalaan goyah pada beberapa titik, misalnya toksisitas, kebenaran, pemikiran, dan logika.¹² Penelitian tahun 2022 yang dilakukan Google menyimpulkan bahwa memperbesar sistem model seperti GPT-3 membuatnya semakin fasih, tetapi tidak lebih tepercaya.¹³
Tanda-tanda tersebut harusnya menjadi alarm bagi industri kendaraan otonom yang sebagian besar berbasis pada penskalaan, alih-alih mengembangkan sistem pemikiran yang lebih canggih. Jika penskalaan tidak membawa kita pada berkendara otonom dengan aman, investasi jutaan dolar untuk penskalaan bisa berakhir sia-sia.
Apa lagi yang kita butuhkan? Di atas sejumlah hal, kita perlu mengunjungi kembali gagasan yang pernah terkenal yang sepertinya benar-benar ingin Hinton hancurkan, yakni gagasan memanipulasi simbol–pengkodean internal dalam komputer, seperti rangkaian bit binari yang menyimpan gagasan kompleks. Memanipulasi simbol telah menjadi hal yang esensial dalam ilmu komputer sejak awal perkembangannya, paling tidak sejak penelitian pionir Alan Turing dan John von Neumann, dan sampai hari ini masih menjadi inti mendasar dari semua penciptaan perangkat lunak, tetapi diperlakukan seperti kata kotor dalam deep learning.
Beranggapan bahwa kita bisa dengan mudah mengesampingkan manipulasi simbol sama saja dengan penangguhan rasa tidak percaya.
Namun, seperti itulah sebagian besar proses kecerdasan buatan yang berlangsung saat ini. Hinton dan beberapa tokoh lain telah berupaya keras untuk menghapuskan simbol sama sekali. Deep learning berharap–sepertinya tidak berdasar pada sains melainkan pembalasan dendam historis–bahwa perilaku intelijen akan muncul secara murni dari pertemuan data yang masif dengan deep learning. Jika komputer klasik dan perangkat lunak menuntaskan pekerjaannya dengan mendefinisikan seperangkat aturan manipulasi simbol yang didedikasikan untuk pekerjaan tertentu, misalnya mengedit kalimat di program pengolah kata atau melakukan perhitungan di lembar kerja; jaringan neural biasanya berupaya menuntaskan tugas melalui perkiraan statistik dan belajar dari contoh. Karena jaringan neural telah mencapai banyak hal dalam waktu singkat, mulai dari rekognisi suara, penandaan foto, dan lain-lain, banyak pendukung deep learning yang mengesampingkan simbol.
Seharusnya mereka tidak melakukan itu.
Sebuah peringatan muncul pada penghujung 2021 di sebuah kompetisi besar yang diselenggarakan oleh tim Facebook (sekarang Meta) bernama NetHack Challenge. NetHack, perkembangan dari game Rogue, dan pendahulu dari Zelda, adalah gim pengguna tunggal bergenre petualangan dungeon yang dirilis pada 1987. Grafiknya masih kuno (karakter ASCII [American Standard Code for Information Exchange/ Kode Standar Amerika untuk Pertukaran Informasi] dalam versi aslinya); tidak membutuhkan persepsi tiga dimensi. Tidak seperti dalam Zelda: The Breath of the Wild, tidak ada ilmu fisika kompleks yang perlu dipahami. Pemain memilih karakter dengan gender dan peran (misalnya petarung atau penyihir atau arkeolog), kemudian berpetualang mengeksplorasi ruang-ruang bawah tanah, mengumpulkan item, dan membunuh monster-monster untuk mencari Amulet of Yendor. Tantangan yang diberikan pada 2020 adalah menghadirkan AI untuk memainkan gim tersebut dengan baik.¹⁴
NetHack nampak begitu mudah untuk deep learning yang telah menguasai banyak gim, mulai dari Pong, Breakout, sampai (dengan bantuan algoritma simbolik untuk tree search) Go and Chess. Namun, pada Desember 2021, sistem berbasis manipulasi simbol mengalahkan entri deep learning yang terbaik dengan skor 3–1, sebuah kekecewaan yang mengagetkan.
Bagaimana nonunggulan (underdog) bisa menjadi pemenang? Menurut hemat saya penyebabnya berakar dari kenyataan bahwa dalam gim tersebut, ruang bawah tanah selalu dimunculkan dalam bentuk yang baru pada setiap permainan–artinya kita tidak bisa mengingat (atau mengira-ngira) papan permainan. Untuk memenangkannya, kita membutuhkan kemampuan mendalam terkait entitas dalam gim dan hubungan abstraknya satu dengan yang lain. Oleh karena itu, pemain harus berpikir tentang hal-hal yang bisa dan tidak bisa dilakukan di dunia yang kompleks. Sekuens atau gerakan spesifik (“ke kiri, maju, kemudian ke kanan”) sifatnya terlalu superfisial, karena setiap tindakan bergantung pada konteks yang baru. Sistem deep learning memang unggul dalam memasukkan contoh-contoh spesifik yang telah dilihat sebelumnya, tetapi seringkali lemah ketika dihadapkan dengan kebaruan.
Sebenarnya apa yang dimaksud dengan “memanipulasi simbol”? Pada dasarnya, ada dua makna, yaitu menghadirkan seperangkat simbol (yakni pola yang bermakna sesuatu) untuk merepresentasikan informasi, dan mengolah (memanipulasi) simbol dalam cara tertentu menggunakan alat seperti aljabar (atau logika, atau program komputer) untuk mengoperasikannya. Banyak kebingungan yang muncul dari ketidakmampuan untuk memahami perbedaan di antara keduanya–menghadirkan simbol, dan mengolahnya secara aljabar. Untuk memahami bagaimana kecerdasan buatan berakhir dengan kekacauan yang ada saat ini, penting untuk memahami perbedaan keduanya.
Apa itu simbol? Pada dasarnya simbol adalah kode. Simbol menawarkan mekanisme berprinsip untuk ekstrapolasi: prosedur aljabar yang dapat diterapkan secara universal, terpisah dari kemiripan dengan contoh yang telah diketahui. Simbol (paling tidak untuk saat ini) masih merupakan cara terbaik untuk menciptakan pengetahuan dan berhadapan dengan abstraksi dalam situasi yang baru. Segi delapan merah yang dihiasi dengan kata “STOP” adalah simbol bagi pengemudi untuk berhenti. Dalam kode ASCII yang sekarang digunakan secara universal, bilangan biner 01000001 berarti (simbol dari) huruf A, bilangan biner 01000010 berarti huruf B, dan selanjutnya.
Gagasan dasar bahwa rangkaian digit biner, yang dinamai bit, dapat digunakan untuk menyandi (encode) semua hal seperti instruksi dalam komputer dan tidak hanya terbatas pada angka, dapat ditelusuri jejaknya paling tidak ke tahun 1945, ketika ahli matematika legendaris von Neumann membeberkan kerangka yang kemudian diikuti oleh semua komputer modern. Bahkan dapat dikatakan bahwa kesadaran von Neumann akan cara bit biner dapat dimanipulasi secara simbolik merupakan inti dari salah satu penemuan terpenting di abad ke-20–menjadi premis dari setiap program komputer yang pernah kita gunakan. (“Embedding” yang popular dalam jaringan neural terlihat seperti simbol walaupun tidak ada yang menyadarinya. Seringkali kata-kata yang akan diberikan vektor unik jika dipertemukan satu sama lain ternyata cukup beranalogi dengan kode ASCII. Menyebut sesuatu sebagai “embedding” tidak berarti hal tersebut bukan simbol.)
Ilmu komputer klasik, yang dipraktikkan Turing dan von Neumann dan semua orang setelah mereka, memanipulasi simbol dalam cara yang bersifat aljabar; dan memang seperti itulah yang terjadi. Pada aljabar sederhana terdapat tiga jenis entitas, yakni variabel (seperti x dan y), operasi (seperti + atau -), dan pengikat (yang memberi tahu kita bahwa x = 12 dengan tujuan untuk memungkinkan penghitungan terjadi). Jika saya mengatakan bahwa x = y + 2, dan jika y = 12, kita bisa memecahkan nilai x dengan mengikat y pada 12 dan menambahkannya dengan nilai yang ada, dan menghasilkan angka 14. Sebenarnya semua perangkat lunak yang ada di dunia bekerja dengan merangkai operasi aljabar, menyusunnya menjadi algoritma yang lebih kompleks. Salah satu contohnya adalah aplikasi pengolah kata yang bekerja dengan menggunakan rangkaian simbol, mengumpulkannya dalam satu fail untuk merepresentasikan dokumen. Operasi-operasi abstrak yang lain meliputi menggandakan serangkaian simbol dari satu tempat ke tempat lain. Aplikasi pengolah kata pada dasarnya merupakan sebuah aplikasi yang tersusun atas operasi aljabar (“fungsi” atau “subrutin”) yang diaplikasikan pada variabel (misalnya “teks yang dipilih saat ini”).
Operasi simbolik juga mendasari struktur data seperti kamus atau basis data yang menyimpan rekaman terkait individu dan ciri-cirinya (seperti misalnya alamat atau waktu terakhir kali berinteraksi dengan pramuniaga, yang memudahkan pengembangan sistem yang kompleks. Teknik seperti itu digunakan di mana-mana, menjadi adonan dasar dari dunia perangkat lunak.
Jika simbol begitu krusial dalam rekayasa perangkat lunak, mengapa tidak menggunakannya juga dalam kecerdasan buatan?
Para pionir awal seperti John McCarthy dan Marvin Minsky tentu sempat berpikir bahwa kita bisa mengembangkan program kecerdasan buatan dengan memperluas teknik tersebut, menghadirkan entitas individual dan gagasan abstrak menggunakan simbol yang dapat dikombinasikan menjadi struktur yang kompleks serta menyimpan kumpulan pengetahuan yang kaya, seperti layaknya yang saat ini digunakan untuk aplikasi peramban, program surel, dan aplikasi pengolah kata. Mereka tidak sepenuhnya salah–perluasan dari teknik tersebut dapat kita temukan di mana-mana (mesin pencarian, sistem navigasi jalan, dan gim kecerdasan buatan). Namun, simbol memiliki permasalahannya sendiri. Sistem simbolik murni terkadang terlalu kaku dan kurang maksimal dalam menjalankan beberapa pekerjaan seperti rekognisi gambar dan rekognisi suara; rezim Mahadata tidak pernah menjadi kekuatan dari teknik simbol. Sebagai hasilnya, ada kebutuhan untuk mencari metode lain.
Di situlah jaringan neural masuk.
Contoh paling jelas yang mampu menjelaskan penggunaan Mahadata dan deep learning di atas (atau sebagai tambahan dari) pendekatan klasik manipulasi simbol adalah pemeriksa ejaan. Cara lama untuk menawarkan ejaan atas kata-kata yang tidak diketahui adalah membangun seperangkat aturan yang pada dasarnya ditentukan oleh psikologi dari bagaimana manusia membuat kesalahan. (Pertimbangkan kemungkinan tidak sengaja mengetik huruf ganda atau kemungkinan huruf yang berdekatan tertukar, berubah dari “teh” menjadi “the.”) Seperti yang disampaikan oleh ilmuwan komputer terkenal, Peter Norvig, jika kita punya data sebesar Google, kita punya pilihan baru. Kita bisa lihat dari catatan (log) yang menunjukkan bagaimana pengguna mengoreksi dirinya sendiri.¹⁵ Jika mesin pencarian menunjukkan hasil “the book” dari pencairan atas “teh book”, kita punya bukti terkait ejaan yang lebih tepat dari “teh”. Oleh karena itu, kita tidak membutuhkan seperangkat aturan ejaan.
Menurut saya, jelas bahwa kita menginginkan kedua pendekatan tersebut diaplikasikan. Di dunia nyata, pemeriksa ejaan cenderung menggunakan kedua pendekatan tersebut. Sebagaimana yang ditunjukkan oleh Ernie Davis, “Jika kita mengetik ‘cleopxjqco’ di Google, ia akan membenahinya menjadi ‘Cleopatra’, walau pun tidak ada pengguna yang mengetiknya seperti itu.” Google Search secara keseluruhan menggunakan campuran pragmatis dari kecerdasan buatan manipulasi simbol dan deep learning, dan agaknya hal tersebut akan terus berlaku dalam waktu dekat. Namun, orang-orang seperti Hinton terus menerus berupaya untuk mengesampingkan peran simbol.
Saat orang-orang seperti saya telah mengembangkan “model hibrida” yang menggabungkan elemen dari deep learning dan manipulasi simbol, Hinton dan pengikutnya terus menerus menendang simbol ke pinggiran/ Mengapa? Tidak ada yang bisa memberikan penjelasan saintifik yang memuaskan. Alih-alih, kemungkinan jawabannya terletak pada sejarah–hubungan permusuhan yang terjadi dalam bidang ilmu kecerdasan buatan.
Relasi yang terjalin sebenarnya tidak seburuk itu pada awalnya. Saya masih terharu ketika membaca tulisan yang dibuat Warren McCulloch dan Walter Pitts pada 1943. “A Logical Calculus of the Ideas Immanent in Nervous Activity”, satu-satunya makalah yang menurut von Neumann cukup berharga untuk ia kutip dalam tulisannya yang menjadi dasar dalam ilmu komputer.¹⁶ Tujuan eksplisit McCulloch dan Pitts, yang menurut saya masih penting hari ini, adalah membuat “sebuah alat yang andal dalam memperlakukan jaringan [neural] secara simbolik.” von Neumann menghabiskan hari-hari terakhir dalam hidupnya untuk memikirkan pertanyaan yang sama. Namun, mereka tidak mampu mengantisipasi permusuhan yang kemudian muncul.
Pada penghujung 1950-an, terjadi perpecahan yang belum bisa didamaikan sampai hari ini. Sejumlah penemu kecerdasan buatan seperti McCarthy, Allen Newell, dan Herb Simon agaknya belum menyadari peran para pionir jaringan neural. Bersamaan dengan itu, komunitas jaringan neural mulai pecah, terkadang mereka menghasilkan pemberitaan yang fantastis. Misalnya artikel New Yorker tahun 1957 menyatakan bahwa sistem jaringan neural awal buatan Frank Roseblatt yang menjauh dari simbol adalah “mesin luar biasa… [yang] mampu berpikir.”
Situasi menjadi semakin tegang dan pahit sampai jurnal Advances in Computers menerbitkan artikel berjudul “A Sociological History of the Neural Network Controversy” yang menekankan perebutan atas uang, prestise, dan liputan media massa.¹⁷ Luka yang sudah ditorehkan sebelumnya semakin teramplifikasi pada 1969 ketika Minsky dan Seymour Papert memublikasikan kritik matematika detail terhadap salah satu kelas jaringan neural (dikenal dengan perceptron) yang merupakan nenek moyang dari semua jaringan neural modern. Mereka membuktikan bahwa jaringan neural yang paling sederhana memiliki keterbatasan, dan menyampaikan keraguan (yang pada saat itu terkesan sangat pesimistis) terkait hal yang dapat dicapai oleh jaringan neural kompleks. Selama satu dekade, antusiasme terhadap jaringan neural pun mereda; Rosenblatt (yang meninggal pada kecelakaan berlayar dua tahun kemudian) kehilangan sejumlah dukungan riset.
Ketika jaringan neural bangkit kembali pada 1980-an, banyak pendukung jaringan neural yang bekerja keras untuk berjarak dari tradisi manipulasi simbol. Pemimpin dari pendekatan tersebut menyatakan secara jelas bahwa meskipun mungkin saja untuk membangun jaringan neural yang kompatibel dengan manipulasi simbol, mereka tidak tertarik. Mereka beranggapan bahwa kesalahan overregularization pada anak-anak (misalnya goes alih-alih went [untuk kata kerja bentuk ketiga untuk “pergi” dalam bahasa Inggris–red.]) dapat dijelaskan oleh jaringan neural dengan cara yang sama sekali berbeda dengan aturan sistem manipulasi simbol. (Disertasi saya menunjukkan kecenderungan sebaliknya.)
Ketika saya masuk kuliah pada 1986, jaringan neural sedang mengalami babak pertama kebangkitan kembalinya. Cetakan pertama dari buku dua jilid yang dibantu penyusunannya oleh Hinton terjual ludes dalam hitungan minggu. The New York Times memuat jaringan neural di halaman pertama rubrik sains (“Lebih Manusia dari Sebelumnya, Komputer Belajar untuk Belajar”), dan ahli saraf komputasional Terry Sejnowski menjelaskan cara jaringan neural bekerja di The Today Show. Deep learning pada saat itu belum terlalu dalam, tetapi mulai menemukan jalannya kembali.
Pada 1990, Hinton memublikasikan edisi khusus jurnal Artificial Intelligence berjudul Connectionist Symbol Processing yang secara eksplisit bertujuan untuk menjembatani kedua dunia deep learning dan manipulasi simbol. Hal yang dibahas meliputi salah satunya rancangan BoltzCons buatan David Touretzky yang dirancang untuk membuat “model koneksionis [jaringan neural] yang mampu menghasilkan dan memanipulasi struktur simbol komposit secara dinamis.” Saya selalu merasa bahwa yang dilakukan Hinton pada saat itu adalah hal yang benar, dan berharap ia akan tetap di jalan tersebut. Pada saat itu, saya juga mendorong model hibrida, meskipun dari perspektif psikologis.¹⁸ (Ron Sun juga merupakan salah satu orang yang dipinggirkan dari komunitas ilmu komputer, tidak pernah mendapatkan perhatian yang menurut saya pantas diperolehnya).
Namun, dengan alasan yang tidak pernah bisa benar-benar saya pahami, Hinton berpandangan sinis terhadap prospek rekonsiliasi dua sistem tersebut. Ia menolak untuk menjelaskan ketika saya bertanya kepadanya secara privat, dan tidak pernah (seingat saya) menghadirkan argumen yang detail terkait hal tersebut. Beberapa orang mencurigai tindakannya tersebut dikarenakan Hinton sendiri sering disisihkan pada tahun-tahun awal kariernya, terutama pada awal 2000-an ketika deep learning sekali lagi kehilangan popularitas, sementara teori yang lain beranggapan ia sudah dibuai oleh keberhasilan deep learning.
Ketika deep learning bangkit kembali pada 2012, Hinton menunjukkan sikap agresif yang menjadi karakternya sepanjang satu dekade terakhir. Pada 2015, permusuhannya terhadap semua hal yang berkaitan dengan simbol akhirnya benar-benar mewujud. Ia menyampaikan paparan pada sebuah konferensi kecerdasan buatan di Stanford, membandingkan simbol dengan aether–salah satu kesalahan terbesar dalam sejarah sains.¹⁹ Ketika saya, yang juga menjadi salah satu pembicara dalam lokakarya tersebut, berupaya menemuinya pada salah satu sesi istirahat untuk menanyakan klarifikasi atas pernyataan finalnya yang mengarah pada implementasi jaringan neural dari sistem simbolik yang dikenal sebagai stack (yang secara tidak sengaja mengonfirmasi perlunya simbol–suatu hal yang selama ini ingin ia kesampingkan), Hinton menolak untuk menjawab dan mengusir saya.
Sejak saat itu, kampanye antisimbol yang dilakukan Hinton semakin intens. Pada 2016, Yann LeCun, Bengio, dan Hinton menulis sebuah manifesto deep learning di salah satu jurnal sains yang paling penting, Nature.²⁰ Manifesto tersebut ditutup dengan serangan langsung terhadap manipulasi simbol, mengajak kita untuk melakukan penggantian alih-alih mengupayakan rekonsiliasi. Kemudian, Hinton sempat menyampaikan di hadapan para pimpinan Uni Eropa bahwa menanam investasi untuk pendekatan manipulasi simbol merupakan “kesalahan besar”, menyamakannya dengan berinvestasi untuk mesin pembakaran internal di era mobil listrik.
Mengecilkan gagasan unik yang belum sepenuhnya dieksplorasi bukanlah hal yang tepat dilakukan. Hinton memang benar saat mengatakan bahwa dulu para peneliti kecerdasan buatan mencoba–terlalu pagi–untuk mengubur deep learning. Namun, Hinton salah karena melakukan hal yang sama sekarang untuk manipulasi simbol. Antagonisme yang ia tunjukkan, menurut saya, merugikan kontribusinya dan membahayakan bidang ini. Pada beberapa titik, kampanye Hinton melawan manipulasi simbol dalam kecerdasan buatan dapat dikatakan sangat sukses; hampir semua investasi riset bergeser ke arah deep learning. Ia menjadi kaya, kemudian bersama murid-muridnya mendapatkan Turing Award tahun 2019. Bayi Hinton mendapatkan hampir semua perhatian. Menurut Emily Bender, “janji-janji besar [seperti model GPT-3] telah mengisap oksigen untuk jenis-jenis penelitian yang lain.”
Ironi dari semua ini adalah bahwa Hinton sebenarnya merupakan canggah (anak dari cicit) George Boole, yang dikenal melalui teori aljabar Boolean, salah satu alat penting dari kecerdasan buatan simbolik. Jika kita bisa menggabungkan gagasan dari kedua sosok jenius tersebut, kecerdasan buatan mungkin pada akhirnya punya kesempatan untuk memenuhi janjinya.
Untuk paling tidak empat alasan, kecerdasan buatan hibrida–bukan hanya deep learning saja atau simbol saja–dapat dikatakan sebagai cara terbaik ke depan.
- Banyak dari pengetahuan dunia, mulai dari resep masakan sampai teknologi saat ini tersedia dalam bentuk simbolik. Berupaya membangun kecerdasan umum buatan (artificial general intelligence–AGI) tanpa pengetahuan tersebut dan lebih memilih untuk mempelajari ulang semua hal dari awal–seperti yang menjadi tujuan dari deep learning murni–tampaknya merupakan beban yang terlalu besar dan bodoh.
- Deep learning sendiri terus bermasalah dalam area-area yang terstruktur seperti aritmatika.²¹ Sistem hibrida memiliki kekuatan yang lebih besar daripada hanya salah satu dari keduanya.
- Simbol masih melampaui jaringan neural yang ada saat ini dalam sejumlah aspek komputasi fundamental. Simbol melakukan pekerjaan yang lebih baik dalam skenario kompleks,²² mampu melakukan operasi dasar seperti aritmatika secara lebih sistematis dan tepercaya, dan lebih baik dalam merepresentasikan relasi antara bagian-bagian dengan struktur keseluruhan (penting dalam interpretasi dunia tiga dimensi dan pemahaman bahasa manusia) secara lebih tepat. Simbol sifatnya lebih kuat dan fleksibel dalam merepresentasikan dan memeriksa basis data dalam skala besar. Simbol juga lebih kondusif untuk teknik verifikasi formal yang penting untuk sejumlah aspek keamanan dan rancangan prosesor mikro modern. Mengesampingkan keunggulan-keunggulan tersebut alih-alih mengangkatnya ke dalam struktur hibrida agaknya kurang masuk akal.
- Sistem deep learning sampai hari ini masih seperti kotak hitam; kita bisa melihat input dan output-nya, tetapi kita kesulitan untuk mengintip ke dalamnya. Kita tidak tahu secara pasti mengapa mereka mengambil keputusan tertentu, dan seringkali tidak tahu apa yang harus dilakukan (kecuali mengumpulkan lebih banyak data) jika mereka menghadirkan jawaban yang salah. Hal ini membuat deep learning secara inheren berat dan tidak dapat diinterpretasi, dan pada banyak hal tidak cocok untuk “perpanjangan kognisi” (augmented cognition) dalam perbandingannya dengan manusia. Kecerdasan buatan hibrida yang memungkinkan kita untuk menghubungkan kekuatan belajar dari deep learning dengan kekayaan semantik simbol akan menjadi hal yang transformatif.
Karena kecerdasan umum buatan akan memikul tanggung jawab yang sangat besar, ia harus seperti besi tahan karat, lebih kuat dan lebih tepercaya, sehingga lebih mudah dikerjakan daripada bagian-bagian penyusunnya. Tidak ada satu pendekatan kecerdasan buatan yang cukup dengan sendirinya; kita harus menguasai seni menggabungkan beragam pendekatan jika kita masih punya harapan. (Bayangkan sebuah dunia di mana para pembuat besi berteriak “besi”, dan pecinta karbon berteriak “karbon” dan tak ada seorang pun yang pernah berpikir untuk mengombinasikan keduanya; seperti itulah kira-kira sejarah kecerdasan buatan modern.)
Berita baiknya adalah bahwa persesuaian neurosimbolik (neurosymbolic rapprochement) yang pernah ditilik oleh Hinton dengan singkat sekitar tahun 1990 dan saya perjuangkan sepanjang karier saya, tidak pernah benar-benar hilang dan pada akhirnya mendapatkan momentumnya.
Artur Garcez dan Luis Lamb menulis sebuah manifesto untuk model hibrida pada 2009, berjudul Neural-Symbolic Cognitive Reasoning. Dan sejumlah keberhasilan besar baru-baru ini pada permainan board-game (Go, Chess, dan lain sebagainya, sebagian besar dikerjakan di DeepMind) merupakan sistem hibrida. AlphaGo menggunakan tree search simbolik, gagasan dari akhir 1950-an (dan diperkaya dengan basis statistik pada 1990-an) berdampingan dengan deep learning. Algoritma klasik tree search saja tidak akan cukup untuk Go, begitu pun jika hanya deep learning. AlphaFold 2 produksi DeepMind, sebuah sistem untuk memprediksi struktur protein dari nukleotida juga merupakan model hibrid yang mengombinasikan cara-cara simbolik dalam merepresentasikan struktur fisik tiga dimensi dari molekul dengan kemampuan penjaringan data oleh deep learning.
Para peneliti seperti Josh Tenenbaum, Anima Anandkumar, dan Yejin Choi saat ini juga menuju ke arah neurosimbolik. Beberapa orang di IBM, Intel, Google, Facebook, dan Microsoft, di antaranya, mulai berinvestasi secara serius untuk pendekatan neurosimbolik. Swarat Chaudhuri dkk., saat ini sedang mengembangkan “pemrograman neurosimbolik”²³ yang terdengar merdu di telinga saya.
Untuk pertama kalinya dalam 40 tahun, saya akhirnya merasakan optimisme terkait kecerdasan buatan. Sebagaimana disampaikan oleh para ilmuwan kognisi Chaz Firestone dan Brian Scholl, “pikiran (mind) tidak bekerja dalam satu cara, karena pikiran bukanlah satu benda. Alih-alih, pikiran memiliki bagian-bagian, dan bagian-bagian yang berbeda dari pikiran beroperasi dalam cara yang berbeda-beda. Melihat sebuah warna berbeda dengan merancang liburan, berbeda dengan memahami sebuah kalimat, menggerakkan anggota tubuh, mengingat fakta, atau merasakan emosi.” Berupaya untuk memeras semua bentuk kognisi ke dalam satu lubang tidak akan pernah berhasil. Dengan keterbukaan yang kecil tetapi semakin berkembang terhadap pendekatan hibrida, saya pikir kita pada akhirnya akan punya kesempatan.
Dengan semua tantangan dalam etika dan komputasi, serta kebutuhan akan pengetahuan dari bidang-bidang lain seperti linguistik, psikologi, antropologi, dan ilmu saraf, tidak hanya matematika dan ilmu komputer, kita akan membutuhkan kolaborasi untuk mengembangkan sebuah kecerdasan buatan. Kita perlu terus ingat bahwa otak manusia mungkin adalah sistem yang paling rumit di semesta yang kita ketahui saat ini; jika kita ingin membangun sesuatu yang sepadan dengannya, kolaborasi dengan hati yang terbuka adalah kuncinya.
Gary Marcus adalah seorang ilmuwan, penulis, dan pengusaha. Ia merupakan pendiri dan direktur Geometric Intelligence, sebuah perusahaan machine learning yang dibeli Uber pada 2016, serta pendiri dan executive chairman Robust AI. Ia telah menerbitkan lima buku, antara lain The Algebraic Mind, Kluge, The Birth of the Mind, Guitar Zero (New York Times bestseller), dan yang paling terbaru ditulisnya bersama Ernest Davis, Rebooting AI, masuk ke dalam daftar 7 Buku tentang Kecerdasan Buatan yang Wajib Dibaca oleh Forbes.
Referensi
1. Varoquaux, G. & Cheplygina, V. How I failed machine learning in medical imaging — shortcomings and recommendations. arXiv 2103.10292 (2021).
2. Chan, S., & Siegel, E.L. Will machine learning end the viability of radiology as a thriving medical specialty? British Journal of Radiology 92, 20180416 (2018).
3. Ross, C. Once billed as a revolution in medicine, IBM’s Watson Health is sold off in parts. STAT News (2022).
4. Hao, K. AI pioneer Geoff Hinton: “Deep learning is going to be able to do everything.” MIT Technology Review (2020).
5. Aguera y Arcas, B. Do large language models understand us? Medium (2021).
6. Davis, E. & Marcus, G. GPT-3, Bloviator: OpenAI’s language generator has no idea what it’s talking about. MIT Technology Review (2020).
7. Greene, T. DeepMind tells Google it has no idea how to make AI less toxic. The Next Web (2021).
8. Weidinger, L., et al. Ethical and social risks of harm from Language Models. arXiv 2112.04359 (2021).
9. Bender, E.M., Gebru, T., McMillan-Major, A., & Schmitchel, S. On the dangers of stochastic parrots: Can language models be too big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency 610–623 (2021).
10. Kaplan, J., et al. Scaling Laws for Neural Language Models. arXiv 2001.08361 (2020).
11. Markoff, J. Smaller, Faster, Cheaper, Over: The Future of Computer Chips. The New York Times (2015).
12. Rae, J.W., et al. Scaling language models: Methods, analysis & insights from training Gopher. arXiv 2112.11446 (2022).
13. Thoppilan, R., et al. LaMDA: Language models for dialog applications. arXiv 2201.08239 (2022).
14. Wiggers, K. Facebook releases AI development tool based on NetHack. Venturebeat.com (2020).
15. Brownlee, J. Hands on big data by Peter Norvig. machinelearningmastery.com (2014).
16. McCulloch, W.S. & Pitts, W. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biology 52, 99–115 (1990).
17. Olazaran, M. A sociological history of the neural network controversy. Advances in Computers 37, 335–425 (1993).
18. Marcus, G.F., et al. Overregularization in language acquisition. Monographs of the Society for Research in Child Development 57 (1998).
19. Hinton, G. Aetherial Symbols. AAAI Spring Symposium on Knowledge Representation and Reasoning Stanford University, CA (2015).
20. LeCun, Y., Bengio, Y., & Hinton, G. Deep learning. Nature 521, 436–444 (2015).
21. Razeghi, Y., Logan IV, R.L., Gardner, M., & Singh, S. Impact of pretraining term frequencies on few-shot reasoning. arXiv 2202.07206 (2022).
22. Lenat, D. What AI can learn from Romeo & Juliet. Forbes (2019).23. Chaudhuri, S., et al.Neurosymbolic programming. Foundations and Trends in Programming Languages7, 158–243 (2021)