Kamis, 13 Juni 2019

Teknologi Informasi | teknologi informasi ilmu alamiah dasar


     Teknologi speech recognition mengejar akarnya dari beragam penemuan semenjak abad ke-18. “Hallo, HAL. Apakah anda mendengarkanku, HAL?” “Afirmatif, Dave. Saya mendengarkanmu.” “Tolong bukakan pintu pod, HAL.” “Maaf, Dave. Saya fobia tidak dapat melakukan tersebut untukmu.” Percakapan di atas terasa alamiah. Masing-masing pihak mengetahui dan merespon pembicaraan dengan lugas. Namun, HAL, yang diminta Dave membukakan pintu pod, bukanlah manusia. HAL atau HAL 9000 merupakan mesin, mesin pintar yang mendampingi Dave Bowman dalam perjalanan luar antariksa untuk menggali tahu asal-usul manusia. Keengganan HAL membuka pintu terjadi sebab menurutnya bakal membahayakan tujuan mereka. Percakapan ini tak terjadi di dunia nyata, tetapi dari adegan 2001: A Space Odyssey, film garapan Stanley Kubrick yang rilis pada 1968.
     Dalam dunia fiksi, mesin atau robot yang dapat memahami serta merespons percakapan insan tidak melulu disajikan Kubrick. Dalam saga Star Wars, terdapat R2D2 dan C3PO yang memiliki keterampilan itu. Di dunia nyata, pembicaraan antara mesin dan manusia sekarang makin gampang dijumpai, contohnya pada produk asisten digital laksana Google Assistant, Alexa, sampai Siri. Kemampuan dasar utama yang memungkinkan HAL, R2D2, sampai C3PO, serta Google Assistant, Alexa, dan Siri dapat memahami dan merespons pembicaraan disebut speech recognition. Baca juga: Mata-mata Bernama NSA Speech recognition, laksana yang dituturkan oleh Markus Forsberg dalam paper berjudul “Why is Speech Recognition Difficult?” (2003) adalah suatu teknologi untuk mengartikan ucapan insan di komputer.


Teknologi Informasi - Teknologi ini dikembangkan sebagai format baru komunikasi antara insan dengan mesin mempunyai nama voice user interface (VUI). Katanya, VUI merupakan masa depan bagaimana insan berinteraksi dengan mesin. Ia lebih sederhana, efisien, dan lebih gampang dibandingkan format interaksi manusia-mesin yang sekarang populer digunakan, graphical user interface (GUI). Sayangnya, speech recognition sebagai teknologi dasar VUI belum sempurna. Sebagaimana dikutip The Washington Post, Google Assistant, VUI yang tersimpan dalam Google Home, masih susah memahami logat dan bahasa di samping Inggris.

      Dalam ujicoba memakai 70 perintah suara yang dilaksanakan manusia pada Google Home, secara borongan Google Assistant mempunyai tingkat akurasi sampai 83 persen. Namun, pada akses pada bahasa tertentu nilainya lebih rendah. Akses bahasa Inggris yang dituturkan di Pantai Timur Amerika Serikat, misalnya, mempunyai tingkat akurasi 2,5 persen lebih rendah dikomparasikan akses bahasa Inggris yang dipakai di distrik Barat Amerika Serikat. Sementara itu, tingkat akurasi perintah yang dilaksanakan menggunakan bahasa Mandarin mempunyai tingkat akurasi lebih rendah 2,6 persen. Dengan penutur utama lebih dari 800 juta jiwa, bahasa Mandarin rupanya mempunyai tingkat akurasi yang lebih rendah dikomparasikan bahasa Inggris.

BACA : Melantai di Bursa, Hotel Fitra Dorong Ekonomi Majalengka

     Bahasa-bahasa yang penuturnya lebih tidak banyak bernasib lebih buruk. Meski belum sempurna, tulis Richard Lippmann dalam “Speech Recognition by Machine and Humans" (2006), teknologi speech recognition terus merasakan peningkatan keterampilan dengan tingkat kekeliruan yang masih dapat ditoleransi. Lippman pun menuliskan bahwa sejumlah sistem speech recognition yang masih diuji, yaitu TI, Alphabet, Resource Management, North America Business News, dan Switchboard, memakai speech corpus, sebuah database pembicaraan audio. Dari lebih dari 2.000 kosakata yang diumpankan, sistem Switchboard, misalnya, melulu mengalami 80 sampai 150 kebingungan. Baca juga: Gurihnya Bisnis Aplikasi Ponsel Pintar Secara umum, menurut keterangan dari Lippmann, sistem-sistem speech recognition yang terdapat mempunyai tingkat kekeliruan yang tak terlampau jauh dikomparasikan kemampuan manusia.

      Manusia, andai diuji dengan speech corpus, mempunyai tingkat kekeliruan sebesar 0,105 persen. Sementara sistem yang terdapat rata-rata mempunyai tingkat kekeliruan sebesar 0,72 persen. Sayangnya, nilai yang lumayan bagus tersebut baru hadir manakala uji dilaksanakan dalam situasi “baik", yaitu di ruangan tertutup tanpa kebisingan. Kesalahan sistem speech recognition dalam mengenali suara bertambah antara 20 sampai 40 persen andai kondisi ujicoba di luar situasi “baik” itu. Bermula dari Abad ke-18 Merujuk sejarahnya, sebagaimana ditulis B.H. Juang dalam “Automatic Speech Recognition: A Brief History of the Technology Development" (2018), pembuatan teknologi speech recognition dibuka paling tidak semenjak paruh kedua abad ke-18. Kala itu, ilmuwan Rusia mempunyai nama Christian Kratzenstein mencoba menciptakan mesin yang dapat meniru suara memanfaatkan tabung resonansi. Pada 1881, penemu telepon Alexander Graham Bell dan rekannya menciptakan Dictaphone, perangkat perekam suara yang memakai silinder berputar. Lantas, pada 1930, Homer Dudley, seorang ilmuwan Amerika Serikat, mengejar teknologi peniru suara (speech synthesizer) mempunyai nama VODER (Voice Operating Demonstrator). Sistem yang lebih serupa dengan speech recognition hari ini baru hadir pada 1960-an. Kala itu, ilmuwan dari MIT Lincoln Lab membuat sistem yang dapat mengenali 10 suku kata yang dibacakan manusia. Teknologi yang lebih maju hadir pada 1992.

BACA : Mesin Pintar Amunisi Gunadarma Sambut Revolusi Industri 4.0

     Kala itu, AT&T merilis layanan mempunyai nama Voice Recognition Call Processing (VRCP), teknologi yang dapat mentranskrip pembicaraan via jaringan AT&T yang dipakai para pelanggannya. Di masa canggih kini, paling tidak semenjak 1997, mesin-mesin speech recognition mampu mengenali 65 ribu suku kata secara simultan. Baca juga: Membuka dan Mendengar Dunia dengan Aplikasi Disabilitas Pengembangan teknologi speech recognition yang lebih masif terjadi pada 2002, saat Lembaga penelitian militer Amerika Serikat Defense Advanced Research Projects Agency (DARPA) mengenalkan program mempunyai nama EARS (Effective, Affordable, and Reusable Speech-to-text).

     Secara umum, pembuatan sistem speech recognition dilaksanakan dalam sejumlah tahap. Beberapa etape tersebut, sebagaimana dipaparkan Li Deng dalam penelitiannya yang bertema “Challenges in Adopting Speech Recognition” (2004), ialah mencari karakteristik dari sebuah kosa kata saat diucapkan, mengetahui artikulasi kosakata, sampai mengurutkan kata dalam skema tertentu. Markus Forsberg mengaku tantangan penyempurnaannya terletak pada kenyataan bahwa speech recognition ialah bahasa tutur (spoken language) alih-alih bahasa tulis (written language). Dalam bahasa yang ditulis melulu tercipta komunikasi satu arah. Bahasa tutur mengumpamakan komunikasi dua arah. Walhasil, di samping harus dapat memahami kosakata yang diucapkan, mesin pun harus dapat merespons lawan bicara secara langsung. Keragaman bahasa dunia inilah dialeknya pun menyulitkan. Mesin mesti dapat membedakan “the tail of a dog” (ekor anjing) dengan “the tale of the dog" (kisah anjing), yang bunyinya serupa saat diucapkan.

0 komentar:

Posting Komentar