RegEx, a Quick Start

Apa itu?

RegEx, atau Regular Expression, merupakan suatu cara membuat pola yang mendeskripsikan jumlah tertentu dari suatu teks. Dengan RegEx, pengguna dapat memilah dan memilih karakter tertentu untuk kemudian digunakan dalam suatu proses/fungsi.

Mengenal Karakter Literal

Pada dasarnya, regex akan mengenali karakter literal tunggal, misal: “a”. Regex akan menemukan karakter pertama yang cocok. Ambil contoh dalam string “Jack is a boy”, yang akan menemukan karakter “a” setelah “J”. Ketika menggunakan teks editor, karakter “a” selanjutnya dapat ditemukan dengan fungsi “pencarian selanjutnya” (Next). Begitu juga dengan regex, yang menyediakan fungsi serupa.

Ada 11 karakter yang mempunyai makna spesial, yakni : kurung persegi [, backslash \, caret ^, dolar $, spasi atau titik ., simbol pipa |, tanda tanya ?, asterik atau bintang *, tanda tambah +, kurung buka (, dan kurung tutup ). Karakter-karakter ini sering disebut metakarakter yang salah satu fungsinya dapat menggantikan fungsi “pencarian selanjutnya”.

Kelas karakter

Kelas karakter dapat digunakan untuk menyocokkan/menemukan satu atau beberapa karakter. Untuk menemukan “a” atau “e”, digunakan [ae]. Misalkan, gr[ae]y digunakan untuk menemukan kata “gray” atau “grey”, bukan graay, graey, atau yang lainnya.

Selain itu, dapat juga digunakan tanda hubung “-” di dalam kelas karakter untuk menunjukkan rentang karakter yang dicari. [0-9] akan menemukan dijit tunggal dari 0 – 9. [0-9a-fA-F] dapat menemukan dijit tunggal heksadesimal yang case insensitive (tidak peduli huruf kapital atau tidak). Kombinasi seperti [0-9a-fxA-FX] dapat digunakan untuk menemukan dijit heksadesimal atau huruf X.

Kelas karakter shorthand

Apa terjemahan yang pas untuk kata shorthand dalam bahasa Indonesia 🙂

Beberapa kelas karakter juga mempunyai fungsi khusus. Karakter \d dapat menemukan karakter dijit tunggal. \w dapat menemukan karakter alfannumerik dan garis bawah. \s menemukan karakter whitespace, seperti spasi, tab, dan ganti-baris. Karakter shorthand yang ditemukan sebenarnya bergantung pada software yang digunakan.

Karakter tak tercetak

Ada beberapa karakter yang digunakan namun tidak turut muncul di layar. Karakter tersebut disebut karakter tak tercetak (non-printable). Regex dapat menggunakan karakter-karakter tersebut dalam ekspresinya. Berikut daftarnya :

\t		Karakter tab (ASCII 0x09)
\r		carriage return (0x0D)
\n		line feed (0x0A)
\a		bel (0x07)
\e		escape (0x1B)
\f		form feed (0x0C)
\v		vertical tab (0x0B)

Yang perlu diingat, Windows menggunakan karakter \r\n pada berkas teks sebagai tanda akhir baris, sedangkan Unix menggunakan \n dan MacOS X menggunakan \r.

Tulisan ini saya ambil dan terjemahkan dari www.regular-expressions.info
CMIIW.

Iklan

Silahkan berkomentar ...

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s