Mengapa orang Cina menulis tanpa spasi antar kata? Fakta menarik tentang bahasa Cina. Jenis surat berpasangan

Manfaat mengenalkan spasi saat menulis bahasa Mandarin

1. Meningkatkan keterbacaan: Menambahkan batasan kata mengurangi beban kognitif saat membaca teks berbahasa Mandarin. Jika teks ditulis tanpa spasi, pembaca perlu menganalisis di mana kata dimulai dan diakhiri, sekaligus mencoba memahami makna teks, sehingga memperumit tugas yang sudah sulit.

2. Pemrosesan mesin yang lebih akurat terhadap teks yang ditulis dalam bahasa Mandarin: Sebelum pemrosesan teks berbahasa Mandarin tersebut dapat dimulai, teks harus disegmentasi terlebih dahulu. Ini bukanlah tugas yang mudah ketika mengolah bahasa yang menggunakan tulisan hieroglif. Ada metode mesin cepat yang tidak terlalu akurat (~90%), dan ada metode mesin lambat yang lebih akurat (~94-97%), namun tidak ada metode yang sempurna.
Jika tulisan Tiongkok memiliki spasi di antara kata-katanya, segmentasi tidak diperlukan, dan pemrosesan teks Tiongkok oleh mesin akan menjadi lebih mudah. Hasilnya, tugas menerjemahkan dari bahasa Mandarin akan disederhanakan secara signifikan.

3. Membuat pembelajaran bahasa Mandarin lebih mudah bagi siswa: Spasi antar kata membuat kata dan kalimat lebih mudah dipahami. Ketika saya pertama kali belajar bahasa Mandarin, saya menghabiskan banyak waktu mencari kata-kata yang tidak ada di kamus karena kurangnya spasi antar kata membuat sulit untuk memahami batasan kata dalam bahasa Mandarin. Memperkenalkan spasi antar kata akan memungkinkan pembelajar bahasa Mandarin membangun kosa kata lebih cepat dan efisien.

Mengapa teks berbahasa Mandarin tidak memerlukan spasi antar kata?

1. Apa itu sebuah kata? Konsep “kata” dalam bahasa Cina agak kabur. Di mana kata itu dimulai dan diakhiri? Sebuah pertanyaan sederhana untuk penutur asli bahasa Rusia (dan bahasa lain berdasarkan alfabet) dapat membingungkan penutur asli bahasa Mandarin. Misalnya, apakah partikel 了, yang menunjukkan bentuk lampau, harus dianggap sebagai bagian dari sebuah kata?
Misalnya pada kalimat 小刘来了 yang diberi spasi - 小刘_来了 atau 小刘来_了? Bagi penutur bahasa Mandarin sendiri yang tidak terbiasa membaca teks dengan spasi antar kata, penambahan spasi hanya akan mempersulit pemahaman bahasa tertulis.

2. Tradisi: Tulisan Tiongkok telah ada selama lebih dari 3.000 tahun, dan selama ini spasi antar kata tidak diperkenalkan. Mengapa memperkenalkannya sekarang?

3. Teks berbahasa Mandarin terlihat lebih indah tanpa spasi antar kata. Memperkenalkan spasi akan memudahkan pelajar bahasa Mandarin untuk memahaminya, namun tidak ada yang akan mengadaptasi sistem bahasa demi kenyamanan mereka yang baru mempelajarinya.

P.S. 1. Teks-teks Eropa kuno juga tidak memiliki spasi antar kata.

P.S. 2: Dalam bahasa Rusia, spasi diperlukan, karena tanpa spasi, makna pernyataan berubah.
Bandingkan: Hal_absurd dan Membawa_hal_berbeda.

P.S. 3.: Teks bahasa Rusia juga dapat dipahami dengan sempurna oleh penutur asli jika ditulis tanpa spasi. Awalnya sulit untuk dipahami, tetapi kemudian otak kita beradaptasi...

Siapa pun yang pernah mengerjakan proyek dari Tiongkok atau meluncurkan kampanye di sana tahu bahwa ide desain lokal berbeda dengan ide Barat. Anda tidak perlu mencari contoh jauh-jauh - jika Anda bekerja untuk merek internasional di Tiongkok atau membuat produk yang dijual di sana, lihatlah melalui Baidu.com atau QQ.com untuk melihat bagaimana merek Anda terwakili di pasar online Tiongkok. ruang angkasa.

Perbedaan terbesarnya adalah situs mereka terlihat sangat berantakan. Banyak sekali teks, link, dan bahkan animasi yang seolah-olah dirancang untuk membuat halaman tidak dapat dibaca.

Ini mungkin terlihat seperti kekacauan digital, tetapi situs web Tiongkok dirancang seperti itu karena beberapa alasan. Jika Anda berencana meluncurkan bisnis Anda di Tiongkok, kami menyarankan Anda mempelajari beberapa fitur pengalaman web lokal.

Bahasa Cina benar-benar berbeda

Pertama, berikut beberapa fakta yang perlu Anda ketahui:

1. Tidak ada huruf kapital dalam bahasa Mandarin. Pembaca Barat dilatih untuk mengidentifikasi huruf kapital dalam teks untuk menemukan awal dan akhir kalimat. Inilah sebabnya mengapa situs Tiongkok dapat terlihat seperti sekumpulan karakter yang serupa

2. Tidak ada spasi antar karakter. Bahasa-bahasa Barat menggunakan spasi untuk memisahkan kata-kata, sesuatu yang juga tidak dilakukan oleh bahasa Cina. Di sini, rangkaian karakter yang panjang adalah hal yang normal, sedangkan bagi pengguna Barat hal ini membingungkan

3. Apakah kamu sudah membuat adonan? Pada prinsipnya semuanya sudah jelas bukan? Kata-kata dengan huruf terbalik mudah dibaca selama huruf pertama dan terakhir berada di tempat yang tepat dan selama penulisannya tidak terbalik seluruhnya. Oleh karena itu, orang-orang membaca sekilas teks dengan mata mereka daripada membaca setiap kata. Namun karena mereka tidak dapat membaca sekilas teks berbahasa Mandarin dengan cara yang sama (dengan asumsi karakter tersebut asing bagi mereka), baris karakter tersebut tampak sangat kacau bagi mereka.

4. Karakter Cina jauh lebih "padat" daripada huruf Latin atau Sirilik - rata-rata 10 guratan dalam satu karakter versus satu atau dua. Karena itu, sekali lagi, teks berbahasa Mandarin terlihat “berlebihan” bagi pengguna Barat.

Fitur membingungkan berikutnya adalah situs web khas Tiongkok terlihat seperti satu tautan besar. Di Sohu.com, secara harfiah setiap karakter adalah bagian dari sebuah tautan.

Ada dua teori tentang hal ini. Yang pertama adalah karakter Cina sulit diketik pada papan ketik abjad, jadi alih-alih menggunakan kotak pencarian, pengguna cenderung mengeklik tautan.

Hal ini cukup masuk akal karena mengetik karakter Cina melibatkan menggambar karakter atau menggunakan huruf Barat untuk menuliskan pinyin.

Setelah hieroglif ditulis atau transkripsinya dicetak, opsi simbol muncul, dan pengguna harus memilih yang benar. Sepertinya melakukan hal ini berulang kali untuk mencari cukup sulit.

Tapi ada teori lain. Dan mengingat popularitas mesin pencari Baidu, yang menawarkan pencarian Google yang setara dengan bahasa China, ada alasan untuk mempercayainya. Menurut teori ini, banyak orang Tiongkok yang masih menggunakan Internet berkecepatan rendah. Dan statistik dari penelitian Akamai mengkonfirmasi hal ini.

Persentase populasi online tergantung pada negara dan kecepatan Internet: di bawah 4 MB/detik, di atas 4 MB/detik, di bawah 10 MB/detik, di atas 10 MB/detik

Seperti yang Anda lihat, dua pertiga orang Tiongkok menggunakan Internet dengan kecepatan koneksi di bawah 4 Mbps - ini jauh lebih rendah daripada kecepatan rata-rata global dan hampir tidak pernah terjadi di negara-negara Barat.

Intinya, dengan kecepatan internet yang relatif lambat, masuk akal untuk memuat satu halaman dengan banyak link dan kemudian membukanya di tab baru. Hal ini memungkinkan pengguna menelusuri halaman secara paralel, dibandingkan memuat halaman satu per satu dalam waktu yang sangat lama. Mereka yang mengingat koneksi Internet dial-up akan memahami apa yang sedang kita bicarakan.

Terakhir, situs web Tiongkok menggunakan banyak teks dan spanduk yang berkedip.

Alasannya tampaknya karena lebih sulit menarik perhatian dengan menggunakan font yang berbeda dalam bahasa Mandarin dibandingkan dengan teks Barat. Dan ada beberapa alasan yang mendasarinya, antara lain:

1. Hanya ada beberapa font untuk karakter Cina.
2. Huruf miring tidak ada dan huruf tebal biasanya tidak digunakan.
3. Ukuran font minimum - 12 piksel

Selain itu (dan di sini kita beralih ke komponen budaya), tampaknya orang Cina kurang peduli dengan flashing grafis dibandingkan orang Barat. Akibatnya, apa yang tampak berlebihan bagi kita adalah hal yang wajar bagi mereka.

Selain itu, dengan munculnya pop-up di situs-situs Barat, sumber daya Tiongkok tidak lagi terlihat berbeda seperti dulu.

Kesimpulannya

Tanda baca merupakan bagian integral dari bahasa apa pun. Tanda koma biasa dapat mengubah arti sebuah kalimat secara radikal: ingat saja kisah “Eksekusi tidak dapat diampuni.” Dan pekerjaan penerjemah dan editor mengharuskan mereka fasih dalam setidaknya dua sistem tanda baca.

Ide postingan ini lahir ketika kami sedang membahas terjemahan sebuah artikel. Dalam materi sumber, tanda persen dipisahkan dengan spasi dari angka, dan ini menarik perhatian saya - dalam teks Rusia dalam hal ini, spasi tidak digunakan (walaupun pernyataan tersebut masih kontroversial - para ahli belum sampai pada a konsensus mengenai masalah ini). Kemudian kami memutuskan bahwa kami perlu membicarakannya. Spesialis dari Departemen Lokalisasi Multibahasa mewawancarai kolega asing kami dan menyiapkan materi yang sekarang kami bagikan kepada Anda. Kami harap ini bermanfaat bagi Anda.

Di awal dan di akhir

Mari kita lihat bagaimana penempatan tanda baca dalam sebuah kalimat: titik, koma, titik dua, titik koma, tanda tanya, dan tanda seru.

Kami berharap semua orang ingat tentang bahasa Rusia - tanda baca yang memisahkan kalimat satu sama lain ditempatkan hanya di akhir titik. Jika Anda perlu menambahkan ekspresi (terutama dalam korespondensi pribadi), kombinasi karakter digunakan - “!!!”, “?!” dan sejenisnya. Dalam bahasa Inggris, Jerman, Italia, Prancis Kanada, Arab, dan Portugis Brasil, titik, elips, dan “kawan”-nya mengikuti aturan yang sama.

Aturan lain dalam bahasa Prancis: titik dua, titik koma, tanda seru, dan tanda tanya diawali dengan spasi tidak putus.

Bahasa Spanyol adalah satu-satunya bahasa dalam pilihan kami yang tanda bacanya membingkai kalimat: di awal frasa, tanda tanya dan tanda seru diduplikasi dalam bentuk "sedikit" terbalik - "¿" dan "¡".

Orang Cina memiliki pendekatan tanda baca yang paling tidak biasa dari sudut pandang Eropa. Titiknya seperti 。, komanya seperti ,, tanda serunya seperti !, dan tanda tanyanya seperti ?. Dalam sebuah kalimat, mereka berperilaku seperti rekan-rekan Rusia mereka, satu-satunya perbedaan adalah bahwa orang Cina tidak menggunakan spasi, karena semua karakter tanda baca adalah byte ganda. Hieroglif yang diketik pada keyboard dua kali lebih lebar dari huruf mana pun dalam alfabet Latin. Oleh karena itu, tanda baca biasanya menempati ruang yang sama dengan hieroglif. Fitur ini ditemui oleh mereka yang bekerja di IME lama yang menjalankan DOS, ketika hieroglif yang dimasukkan salah dihapus dengan menekan Backspace dua kali. Spasi terutama digunakan untuk memisahkan kata dan karakter dari bahasa lain, seperti bahasa Inggris.

Fitur lucu

Di Rusia, tanda hubung atau tanda hubung digunakan. Tanda hubungnya pendek dan diperlukan untuk mentransfer dan menghubungkan kata majemuk. Dasbornya jauh lebih panjang; berfungsi untuk memisahkan bagian semantik: kalimat berbeda, dua bagian dari satu kalimat, dalam dialog, dll. Anda dapat mengingat semua seluk-beluk penggunaan tanda-tanda ini dengan melihat buku teks bahasa Rusia.

Tanda hubung dan tanda hubung ada dalam kondisi serupa dalam bahasa Inggris, Jerman, Prancis, dan Portugis Brasil. Selain itu, dalam bahasa Inggris Amerika, tanda hubung dipisahkan di kedua sisinya dengan spasi, tetapi dalam bahasa Inggris British biasanya tidak:

Kuliah tersebut – yang merupakan kali ketiga mengenai topik ini pada bulan ini – akan menghadirkan pembicara dari berbagai negara. (Bahasa Inggris Amerika)

Kebun binatang ini memiliki banyak sekali kucing—singa, macan kumbang, harimau, jaguar, dan cheetah—yang membuat pemilihan hewan favorit menjadi sangat sulit. (Bahasa Inggris Inggris)

Dalam bahasa Spanyol, Italia, dan Arab, tanda hubung dan garis terlihat sama: "-". Orang Cina tidak menggunakan tanda hubung sama sekali - mereka hanya menggunakan tanda hubung. Meskipun di samping huruf alfabet Latin mungkin terdapat tanda hubung, tanda hubung panjang, dan tanda hubung tengah. Tanda hubungnya pendek dan diperlukan untuk mentransfer dan menghubungkan kata majemuk. Dasbornya jauh lebih panjang; itu berfungsi untuk memisahkan bagian semantik

Bahasa Tanda penghubung Em dasbor (Alt 0151)
Rusia
Inggris-AmerikaYa, untuk tanda hubung dan penggabungan kata majemukYa, untuk memisahkan bagian semantik: kalimat berbeda, dua bagian dalam satu kalimat, dalam dialog, dll.
Bahasa inggris
Inggris
Ya, untuk tanda hubung dan penggabungan kata majemukYa, untuk memisahkan bagian semantik: kalimat berbeda, dua bagian dalam satu kalimat, dalam dialog, dll. Tidak dipisahkan oleh spasi pada kedua sisinya.
JermanYa, untuk tanda hubung dan penggabungan kata majemukYa, untuk memisahkan bagian semantik: kalimat berbeda, dua bagian dalam satu kalimat, dalam dialog, dll.
PerancisYa, untuk tanda hubung dan penggabungan kata majemukYa, untuk memisahkan bagian semantik: kalimat berbeda, dua bagian dalam satu kalimat, dalam dialog, dll.
Perancis KanadaYa, untuk tanda hubung dan penggabungan kata majemukYa, untuk memisahkan bagian semantik: kalimat berbeda, dua bagian dalam satu kalimat, dalam dialog, dll.
SpanyolYa, dalam semua kasus-
Portugis
Brazil
Ya, untuk tanda hubung dan penggabungan kata majemukYa, untuk memisahkan bagian semantik: kalimat berbeda, dua bagian dalam satu kalimat, dalam dialog, dll.
ItaliaYa, dalam semua kasus-
ArabYa, dalam semua kasus-
CinaHanya di sebelah huruf dari alfabet LatinYa, dalam semua kasus
Jenis surat berpasangan


Tanda kutip ada dalam semua bahasa, tetapi seperti kostum nasional, tanda kutip terlihat berbeda. Dalam bahasa Rusia terdapat “pohon Natal” tradisional, yang berasal dari bahasa Prancis, dan “cakar” Jerman, yang digunakan dalam frasa di dalam tanda kutip dan saat menulis dengan tangan. Bahasa Spanyol, Portugis Brasil, Italia, dan Arab menggunakan tanda kutip ganda.

Orang Inggris menggunakan tanda kutip 'tunggal' dan 'ganda': yang pertama untuk judul, yang kedua untuk kutipan. Titik dan koma berada di dalam tanda kutip. Dalam teks Perancis terdapat “tulang herring”, dengan satu perbedaan dengan bahasa Rusia: terdapat spasi bersambung antara awal teks yang dikutip dan tanda kutip terbuka, serta antara akhir frasa dan tanda kutip penutup.

Ada tiga jenis tanda kutip dalam bahasa Mandarin, yang memiliki tujuan berbeda. Ini adalah nama-nama buku, film, dan karya penulis lainnya. Untuk kasus lainnya, orang Cina menggunakan 「seperti」. Tanda kutip dari tradisi Eropa (apakah “pohon Natal”, “cakar”, “tunggal” atau “ganda”) hanya dapat ditemukan dalam terjemahan atau dalam hubungannya dengan frasa dari bahasa-bahasa Eropa. Mereka belum mendapatkan popularitas di Tiongkok tradisional.

Tanda kutip ada dalam semua bahasa, tetapi seperti kostum nasional, tanda kutip terlihat berbeda.

Bahasa«…» „…“ “…” ‘…’ 《…》 「…」
RusiaStandar, titik dan koma di luarAlternatif dalam frasa di dalam tanda petik dan bila ditulis dengan tanganAlternatif saat menulis dengan tangan- - -
Bahasa inggris
Amerika
- - Standar untuk judul- -
Bahasa inggris
Inggris
- - Standar saat mengutip, titik dan koma di dalamnyaStandar untuk judul- -
Jerman- Standar- - - -
PerancisSpasi standar dan tidak terputus sebelum kutipan pembuka dan penutup- - - - -
Spanyol- - Standar- - -
Portugis
Brazil
- - Standar- - -
Italia- - Standar- - -
Arab- - Standar- - -
CinaHanya dalam terjemahan atau bersamaan dengan frasa dari bahasa-bahasa EropaHanya dalam terjemahan atau bersamaan dengan frasa dari bahasa-bahasa EropaHanya dalam terjemahan atau bersamaan dengan frasa dari bahasa-bahasa EropaStandar untuk judul buku, film, dan karya penulis lainnyaStandar untuk kasus lain
Simbolisme

Persen dan ppm juga tidak terlalu standar. Dalam bahasa Jerman, Prancis, dan Spanyol, karakter-karakter ini harus dipisahkan dengan spasi yang tidak terputus. Dan dalam bahasa Rusia, Inggris, Italia, Arab, dan Portugis Brasil, tulis segera setelah nomornya. Meskipun dengan Rusia, seperti yang kita ingat, situasinya ambigu.

Derajat dan inci biasanya ditempatkan setelah angka tanpa spasi.

Fakta menarik: ketika orang Prancis menulis angka besar, mereka memisahkan blok tiga digit dengan spasi - misalnya: 987.654.321.12.

Orang Cina mempunyai karakter tersendiri untuk derajat (度) dan persentase (百分比 dan 百分之). Namun, ° dan % biasa digunakan bersama tanpa spasi di depannya.

Membangun dialog

Format dialog juga bervariasi dari satu bahasa ke bahasa lainnya. Dalam bahasa Rusia, kami memberi tanda hubung em sebelum setiap baris. Penutur bahasa Portugis Brasil juga melakukan hal yang sama.

Dalam bahasa Inggris digunakan tanda kutip “ganda” dan “tunggal”, misalnya:

“Ini satu juta pound,” kata Marina sambil menyerahkan sebuah koper kepada Simon.

Marina melanjutkan: ‘Saya berbicara dengan Ivan dan dia berkata, “Simon meminta sepuluh juta, tapi itu terlalu banyak.”’

Di Jerman, dialog juga diformat menggunakan tanda kutip tradisional - “paws”. Orang Prancis menggunakan "tulang herring", serta garis pendek, jika penulis baris berubah. Beberapa bagian dialog juga diselingi dengan tanda hubung dalam bahasa Spanyol.

Bahasa Italia dan Arab menggunakan tanda kutip lurus ganda untuk dialog.

Orang Tionghoa biasanya hanya membubuhkan “tanda kutip” atau padanan bahasa Inggrisnya dalam dialog mereka.

Besar atau kecil


Dalam bahasa Inggris, Prancis, Spanyol, Portugis, Brasil, dan Italia, semuanya sederhana dan familier bagi penutur bahasa Rusia - huruf kapital digunakan di awal kalimat, untuk singkatan, dan nama diri.

Bahasa Jerman jauh lebih menyenangkan. Kata benda, nama dan gelar, bentuk sapaan sopan (Sie) dalam segala bentuk kasus (Ihr, Ihre, Ihrer, Ihres, Ihrem, Ihren) ditulis dengan huruf kapital. Kata sifat, partisip, dan infinitif yang digunakan dalam kalimat sebagai kata benda yang digabungkan dengan artikel pasti (das Gute) atau tidak tentu (ein Lächeln), preposisi (dalam Blau), kata ganti (dein Stottern), angka (nichts Aufregendes) atau kata sifat dalam bentuk infleksi (lautes Sprechen). Semuanya :-)

Alfabet Arab tidak membedakan antara huruf kecil dan huruf besar, namun sebagian besar huruf mempunyai dua, tiga, atau empat ejaan yang berbeda: untuk awal, tengah, dan akhir sebuah kata, dan terkadang untuk satu huruf di luar kata. Situasi serupa telah berkembang dalam bahasa Cina - kecil kemungkinannya untuk membedakan karakter huruf kecil atau huruf besar. Dan jika penulis Tiongkok perlu menyorot beberapa bagian teks, mereka menggarisbawahinya atau menggunakan huruf tebal.

16

Saya ingin membuat pencarian teks lengkap MySQL berfungsi dengan teks Jepang dan Cina, serta bahasa lainnya. Masalahnya adalah bahasa-bahasa ini, dan mungkin bahasa lain, biasanya tidak memiliki spasi antar kata. Pencarian tidak berguna ketika Anda harus memasukkan kalimat yang sama seperti di teks.

Saya tidak bisa hanya memberi spasi di antara setiap karakter karena bahasa Inggris juga harus berfungsi. Saya ingin menyelesaikan masalah ini dengan PHP atau MySQL.

Bisakah saya mengkonfigurasi MySQL untuk mengenali karakter yang seharusnya menjadi indeksnya sendiri? Apakah ada modul PHP yang bisa mengenali karakter ini sehingga saya bisa membuang spasi di sekitar indeks?

Solusi parsial:

$string_with_spaces = preg_replace("/[".json_decode(""\u4e00"")."-".json_decode(""\uface"")."]/", " $0 ", $string_without_spaces);

Hal ini membuat kelas karakter keluar dari setidaknya beberapa karakter yang perlu saya perlakukan secara khusus. Saya mungkin harus menyebutkan bahwa melewatkan teks yang diindeks dapat diterima.

Adakah yang tahu semua rentang karakter yang perlu saya masukkan ke dalam probe?

Juga, haruskah ada cara yang lebih baik dan portabel untuk merepresentasikan karakter-karakter ini di PHP? Kode sumber di Literal Unicode tidak sempurna; Saya tidak mengenali semua karakternya; mereka mungkin tidak muncul di semua mesin yang perlu saya gunakan.

3

Bahasa modern lainnya yang tidak menggunakan spasi antar kata adalah bahasa Thailand, Laos, Khmer (Kamboja), dan Burma (Myanmar). Di Vietnam, ada masalah terkait yaitu penggunaan spasi di antara semua suku kata kecuali kata asing. - jalur hippie 18 Desember 10 18-12-2010 12:48:10

  • 2 jawaban
  • Penyortiran:

    Aktivitas

15

Pelanggaran kata untuk bahasa yang disebutkan memerlukan pendekatan linguistik , misalnya yang menggunakan kamus beserta pemahaman dasarnya peraturan yang timbul.

Saya pernah mendengar aplikasi pencarian teks lengkap yang relatif sukses yang hanya memisahkan setiap karakter sebagai kata terpisah dalam bahasa Cina, hanya menerapkan "tokenisasi" kriteria pencarian yang sama yang disediakan oleh pengguna akhir. Mesin pencari kemudian memberikan peringkat yang lebih baik untuk dokumen yang menyediakan karakter kata dalam urutan yang sama dengan kriteria pencarian. Saya tidak yakin apakah ini dapat diperluas ke bahasa seperti Jepang, karena rangkaian karakter Hirakana dan Katagana membuat teks lebih mirip dengan bahasa Eropa dengan alfabet pendek.

Sunting:
Sumber daya
Kata ini untuk menguraikan masalah, serta isu-isu terkait, jadi tidak sepele bahwa seluruh buku telah ditulis tentang hal itu. Lihat misalnya Pemrosesan Informasi CJKV (CJKV adalah singkatan dari bahasa Mandarin, Jepang, Korea, dan Vietnam, Anda juga dapat menggunakan kata kunci CJK karena banyak teks yang tidak membahas bahasa Vietnam). Lihat juga Pemecahan Kata dalam bahasa Jepang sulit untuk satu halaman tentang topik ini.
Jelas bahwa sebagian besar materi yang membahas topik ini ditulis dalam salah satu bahasa utama dalam bahasa ibu dan oleh karena itu terbatas pada orang-orang yang relatif tidak mahir dalam bahasa-bahasa tersebut. Karena alasan ini, dan untuk membantu Anda menguji mesin pencari, setelah Anda mulai menerapkan logika pemecah kata, Anda harus mencari bantuan dari satu atau dua penutur asli.

Berbagai ide
Ide Anda mengidentifikasi fitur yang secara sistematis menyiratkan pemutusan kata(misalkan tanda kutip, tanda kurung, simbol seperti tanda hubung, dan semacamnya) bagus, dan ini mungkin salah satu heuristik yang digunakan oleh beberapa pemecah kata profesional. Namun, Anda harus mencari sumber terpercaya untuk daftar tersebut daripada menyusunnya dari awal berdasarkan temuan anekdotal.
Ide terkait adalah memecah kata-kata menjadi Transisi Kana-ke-kanji(tapi menurut saya bukan sebaliknya), dan mungkin masuk hiragana-ke-katakana atau sebaliknya transisi.
Tidak ada hubungannya dengan yang benar, indeks mungkin [-atau mungkin tidak- ;-)] mendapat manfaat dari konversi sistematis masing-masing, katakanlah, karakter hiragana menjadi karakter katakana yang sesuai. Hanya sebuah ide yang tidak berpendidikan! Saya tidak cukup paham tentang bahasa Jepang untuk mengetahui apakah ini akan membantu; secara intuitif, hal ini terkait secara longgar dengan konversi sistematis huruf-huruf beraksen dan dengan demikian menjadi tulisan tanpa aksen yang sesuai, seperti yang dilakukan dalam beberapa bahasa Eropa.

Mungkin gagasan yang saya sebutkan sebelumnya tentang mengindeks karakter individu secara sistematis (dan memberi peringkat pada hasil pencarian berdasarkan perkiraannya terhadap istilah pencarian) dapat sedikit dimodifikasi, misalnya dengan menyatukan karakter kana yang berurutan dan kemudian beberapa aturan lainnya... dan membuat tidak sempurna, tapi mesin pencari cukup praktis.

Jangan kecewa jika hal ini tidak terjadi... Seperti yang telah disebutkan, ini bukanlah hal yang sepele, dan dapat menghemat waktu dan uang Anda dalam jangka panjang dengan berhenti sejenak dan membaca satu atau dua buku. Alasan lain untuk mencoba mempelajari lebih lanjut tentang "teori" dan praktik terbaik adalah karena saat ini Anda tampaknya sedang fokus kata-kata pelanggaran , namun dalam waktu dekat, mesin pencari juga dapat memperoleh manfaat darinya kesadaran konsekuensial ; memang, kedua pertanyaan ini setidaknya relevan secara linguistik, dan mungkin berguna jika diproses secara bersamaan.

Semoga sukses untuk Anda dalam usaha yang tidak menyenangkan namun bermanfaat ini.

0

@ Joe: Sama-sama. Sepertinya saya memiliki minat pada linguistik dan NLP, tetapi pengetahuan khusus tentang bahasa CJK sangat-sangat sedikit. Baca hasil edit saya menambahkan beberapa kata kunci dan tautan online yang dapat membantu pencarian Anda :-) - mjv 22 Oktober 09

Bahasa Cina adalah salah satu bahasa tertulis tertua di dunia. Sejarahnya dimulai setidaknya 3 ribu tahun yang lalu. Prasasti di atasnya telah ditemukan pada kulit penyu dari Dinasti Shang (1766-1123 SM).

Sejarah tulisan Tiongkok

Tulisan Tiongkok lebih muda dari tulisan Sumeria atau Mesir, tetapi tidak ada bukti bahwa penemuan tulisan di Kerajaan Tengah didorong oleh tulisan di Timur Dekat. Contoh paling awal dari karakter Cina adalah teks ramalan tentang tulang dan cangkang. Mereka terdiri dari pertanyaan kepada peramal dan jawabannya. Tulisan awal ini menunjukkan bahwa pada masa awalnya didasarkan pada piktograf. Misalnya, kata “sapi” digambarkan dengan kepala binatang, dan “berjalan” digambarkan dengan gambar kaki.

Namun seiring berjalannya waktu, tulisan Tiongkok mengalami banyak perubahan, dan pada saat itu (206 SM - 220 M) tulisan tersebut telah kehilangan sebagian besar kiasannya. Hieroglif modern terbentuk pada abad ke-3 dan ke-4 Masehi. e. Anehnya, setelah itu mereka hampir tidak berubah. Selain formulir standar, ada juga beberapa formulir tulisan tangan. Yang paling umum adalah Tsaoshu dan Xingshu. Tipe pertama sangat sulit dibaca oleh orang yang tidak memiliki pelatihan khusus. Xingshu adalah semacam kompromi antara kecepatan tinggi Caoshu dan penulisan standar. Bentuk ini banyak digunakan di Tiongkok modern.

Berapa banyak karakter yang ada dalam bahasa Cina?

Untuk mewakili setiap morfem dalam kosa kata, orang Cina menggunakan karakter tunggal yang berbeda. Sebagian besar tanda merupakan versi tertulis dari bunyi lisan yang mempunyai makna semantik. Meskipun sistem penulisannya telah berubah seiring waktu karena revolusi dan pergolakan politik, prinsip-prinsipnya, beserta simbol-simbolnya, pada dasarnya tetap sama.

Karakter kata dalam bahasa Mandarin awalnya menggambarkan orang, hewan, atau benda, namun selama berabad-abad karakter tersebut menjadi semakin bergaya dan tidak lagi menyerupai apa yang diwakilinya. Meskipun ada sekitar 56 ribu di antaranya, sebagian besar di antaranya tidak diketahui oleh pembaca pada umumnya - ia hanya perlu mengetahui 3000 di antaranya agar bisa melek huruf. Mungkin angka ini paling andal menjawab pertanyaan tentang berapa banyak karakter yang ada dalam bahasa Cina.

Logogram yang disederhanakan

Masalah pembelajaran ribuan aksara pada tahun 1956 menyebabkan penyederhanaan penulisan aksara Cina. Hasilnya, sekitar 2000 logogram menjadi lebih mudah dibaca dan ditulis. Mereka juga diajarkan di kelas bahasa Mandarin di luar negeri. Simbol-simbol ini lebih sederhana, yaitu memiliki lebih sedikit elemen grafis dibandingkan simbol tradisional.

Aksara yang disederhanakan telah ada selama ratusan tahun, namun baru secara resmi dimasukkan ke dalam tulisan setelah berdirinya Republik Rakyat Tiongkok pada tahun 1950-an untuk meningkatkan literasi. Logogram yang disederhanakan digunakan oleh surat kabar harian rakyat People's Daily dan digunakan dalam subjudul berita dan video. Namun, orang yang menulis dengan benar mungkin tidak mengetahui versi tradisionalnya.

Sistem ini merupakan standar di RRT (tidak termasuk Hong Kong) dan Singapura, dan bahasa Mandarin Tradisional terus menjadi standar di Hong Kong, Taiwan, Makau, Malaysia, Korea, Jepang, dan negara-negara lainnya.

Surat fonetik

Penutur bahasa Kanton telah mengembangkan sistem tanda fonetiknya sendiri. Karakter ini digunakan selain karakter tradisional Tiongkok, misalnya dalam buku komik atau bagian hiburan di surat kabar dan majalah. Seringkali hieroglif ini tidak dapat ditemukan di kamus. Logogram tidak resmi digunakan untuk menyampaikan

Pinyin

Dalam upaya membuat bahasa Mandarin lebih mudah dipahami oleh orang Barat, Tiongkok mengembangkan sistem Pinyin. Ini digunakan untuk menyampaikan kata-kata. Pada tahun 1977, otoritas RRT mengajukan permintaan resmi kepada PBB untuk memberi nama tempat geografis di Tiongkok menggunakan sistem Pinyin. Pinyin digunakan oleh mereka yang lebih paham dengan alfabet Latin dan sedang belajar berbicara bahasa Mandarin.