Nima uchun xitoyliklar so'zlar orasida bo'sh joy qoldirmasdan yozadilar? Xitoy tili haqida qiziqarli faktlar. Juftlangan harf turi

Xitoy tilini yozishda bo'shliqlar kiritishning afzalliklari

1. O'qishni yaxshilaydi: so'z chegaralarini qo'shish xitoy tilidagi matnni o'qishda kognitiv yukni kamaytiradi. Agar matn bo'sh joysiz yozilgan bo'lsa, o'quvchi so'zlarning qaerdan boshlanib, qayerda tugashini tahlil qilishi kerak, shu bilan birga matnning ma'nosini tushunishga harakat qiladi va shu bilan allaqachon qiyin vazifani murakkablashtiradi.

2. Xitoy tilida yozilgan matnlarni mashinada aniqroq qayta ishlash: Xitoy matniga bunday ishlov berishni boshlashdan oldin, matnni segmentlarga bo'lish kerak. Ieroglif yozuvidan foydalanadigan tillarni qayta ishlashda bu oson ish emas. Tez mashina usullari juda aniq bo'lmagan (~ 90%) va sekinroq usullar mavjud (~ 94-97%), lekin hech qanday usul mukammal emas.
Agar xitoy yozuvida so'zlar orasida bo'shliqlar bo'lsa, segmentatsiyaga ehtiyoj qolmaydi va xitoycha matnni mashinada qayta ishlash ancha osonlashadi. Natijada xitoy tilidan tarjima qilish vazifasi sezilarli darajada soddalashtiriladi.

3. Talabalar uchun xitoy tilini o'rganishni osonlashtirish: So'zlar orasidagi bo'shliqlar so'zlar va jumlalarni tushunishni osonlashtiradi. Men xitoy tilini birinchi marta o‘rganishni boshlaganimda, lug‘atda mavjud bo‘lmagan so‘zlarni izlashga ko‘p vaqt sarfladim, chunki so‘zlar orasida bo‘sh joy yo‘qligi xitoy tilidagi so‘z chegaralarini tushunishni qiyinlashtirdi. So'zlar orasidagi bo'shliqlarni kiritish xitoy tilini o'rganuvchilarga so'z boyligini tezroq va samaraliroq yaratishga imkon beradi.

Nima uchun xitoycha matnga so'zlar orasida bo'sh joy kerak emas?

1. So'z nima? Xitoy tilida "so'z" tushunchasi juda noaniq. So'z qayerda boshlanadi va qayerda tugaydi? Rus tilida so'zlashuvchi uchun oddiy savol (va alifboga asoslangan har qanday boshqa til) xitoy tilida so'zlashuvchini chalkashtirib yuborishi mumkin. Masalan, o'tgan zamonni ko'rsatuvchi shn zarrachasini so'z tarkibiga kiritish kerakmi?
Misol uchun, chàngāngāngān jumlasida bo'sh joy qo'yish kerak - chànjàngínín yoki chàngàngìnìnìní yoki soz orasiga boʻsh joy qoʻyilgan matnlarni oʻqishga odatlanmagan xitoy tilida soʻzlashuvchilar uchun boʻshliqlar kiritish faqat murakkablashadi. yozma tilni tushunish.

2. An'ana: Xitoy yozuvi 3000 yildan ortiq vaqtdan beri mavjud va bu vaqt ichida so'zlar orasidagi bo'shliqlar kiritilmagan. Nega endi ularni tanishtirish kerak?

3. Xitoy matni so'zlar orasidagi bo'shliqlarsiz yanada chiroyli ko'rinadi. Bo'shliqlarni kiritish xitoylik o'quvchilarning tushunishini osonlashtiradi, ammo hech kim til tizimini endigina o'rganayotganlar uchun qulaylik uchun moslashtirmaydi.

P.S. 1. Qadimgi Yevropa matnlarida ham so‘zlar orasida bo‘sh joy bo‘lmagan.

P.S. 2: Rus tilida bo'shliqlar kerak, chunki ularsiz bayonotning ma'nosi o'zgaradi.
Taqqoslang: Absurd_narsalar va Har xil_narsalarni olib yurish.

P.S. 3.: Rus tilidagi matn ham bo'shliqlarsiz yozilgan bo'lsa, uni yaxshi tushunadi, lekin keyin bizning miyamiz moslashadi ...

Xitoydan loyiha ustida ishlagan yoki u erda kampaniya boshlagan har bir kishi mahalliy dizayn g'oyasi G'arbdan farq qilishini biladi. Misollarni uzoqdan izlashning hojati yo'q - agar siz Xitoyda xalqaro brend uchun ishlasangiz yoki u yerda sotiladigan mahsulot yaratsangiz, brendingiz Xitoyda onlayn tarzda qanday namoyon bo'lishini Baidu.com yoki QQ.com orqali ko'ring. bo'sh joy.

Eng katta farq shundaki, ularning saytlari juda tartibsiz ko'rinadi. Ko'plab matnlar, havolalar va hatto animatsiyalar sahifani o'qishni imkonsiz qilish uchun yaratilgan.

Bu raqamli tartibsizlik kabi ko'rinishi mumkin, ammo Xitoy veb-saytlari bir necha sabablarga ko'ra shunday yaratilgan. Agar siz Xitoyda o'z biznesingizni yo'lga qo'ymoqchi bo'lsangiz, mahalliy internet tajribasining ba'zi xususiyatlarini o'rganishingizni maslahat beramiz.

Xitoy tili butunlay boshqacha

Birinchidan, siz bilishingiz kerak bo'lgan bir nechta faktlar:

1. Xitoy tilida bosh harflar mavjud emas. G'arb o'quvchilari jumlaning boshi va oxirini topish uchun matndagi bosh harflarni aniqlashga o'rgatiladi. Shu sababli, Xitoy saytlari o'xshash belgilar to'plamiga o'xshab ko'rinishi mumkin

2. Belgilar orasida bo'sh joy yo'q. G'arb tillari so'zlarni ajratish uchun bo'sh joydan foydalanadi, xitoyliklar ham buni qilmaydi. Bu erda belgilarning uzun qatori mutlaqo normal, G'arb foydalanuvchilari uchun esa chalkash

3. Bir oz xamir qildingizmi? Aslida, hamma narsa aniq, shunday emasmi? Harflari teskari boʻlgan soʻzlarni birinchi va oxirgi harflar toʻgʻri joyda boʻlsa va toʻliq teskari yozilmasa, oʻqish oson. Shu sababli, odamlar har bir so'zni o'qishdan ko'ra, matnni ko'zlari bilan ko'rib chiqishadi. Ammo ular xitoycha matnlarni bir xil tarzda ko'zdan kechira olmaganlari uchun (belgilar ularga notanish bo'lsa), bunday belgilarning satrlari ularga ayniqsa xaotik ko'rinadi.

4. Xitoy harflari lotin yoki kirill harflariga qaraganda ancha “zichroq” – bitta belgida oʻrtacha 10 ta zarba, bir yoki ikkita. Shu sababli, Xitoy matni G'arb foydalanuvchisiga "haddan tashqari yuklangan" ko'rinadi.

Keyingi hayratlanarli xususiyat shundaki, odatiy xitoy veb-sayti bitta katta havolaga o'xshaydi. Sohu.com saytida har bir belgi havolaning bir qismidir.

Bu borada ikkita nazariya mavjud. Birinchisi, xitoycha belgilarni alifbo tartibida klaviaturada yozish qiyin, shuning uchun foydalanuvchilar qidiruv maydonidan foydalanish o'rniga havolalarni bosishga moyil.

Bu juda o'rinli, chunki xitoycha belgilarni yozish belgilarni chizish yoki pinyinni transkripsiya qilish uchun g'arbiy harflardan foydalanishni o'z ichiga oladi.

Ieroglif yozilgandan yoki uning transkripsiyasi chop etilgandan so'ng, foydalanuvchi to'g'risini tanlashi kerak bo'lgan belgilar variantlari paydo bo'ladi. Qidiruv uchun buni qayta-qayta qilish juda qiyindek tuyuladi.

Ammo yana bir nazariya bor. Google qidiruvining xitoycha ekvivalentini taklif qiluvchi Baidu qidiruv tizimining mashhurligini hisobga olsak, bunga ishonish uchun asos bor. Ushbu nazariyaga ko'ra, ko'plab xitoyliklar hali ham past tezlikda Internetdan foydalanishadi. Akamai tadqiqotining statistik ma'lumotlari buni tasdiqlaydi.

Mamlakat va Internet tezligiga qarab onlayn aholi ulushi: 4 MB/s dan past, 4 MB/sek dan yuqori, 10 MB/sek dan past, 10 MB/sek dan yuqori

Ko'rib turganingizdek, xitoyliklarning uchdan ikki qismi ulanish tezligi 4 Mbit/s dan past bo'lgan internetdan foydalanadi - bu global o'rtacha tezlikdan sezilarli darajada past va G'arb mamlakatlarida deyarli eshitilmagan.

Xulosa qilib aytganda, bunday nisbatan sekin internet tezligi bilan bir sahifani juda ko'p havolalar bilan yuklash va keyin ularni yangi yorliqlarda ochish mantiqan. Bu foydalanuvchilarga bir vaqtning o'zida og'riqli uzoq vaqt yuklash o'rniga sahifalarni parallel ravishda ko'rib chiqish imkonini beradi. Dial-up Internet ulanishlarini eslaydiganlar nima haqida gapirayotganimizni tushunadilar.

Nihoyat, Xitoy veb-saytlari ko'plab miltillovchi matn va bannerlardan foydalanadi.

Sababi, xitoy tilida turli shriftlar yordamida e'tiborni jalb qilish G'arb matnlariga qaraganda ancha qiyinroqdek tuyuladi. Va buning bir qancha sabablari bor, jumladan:

1. Xitoycha belgilar uchun bir nechta shriftlar mavjud.
2. Kursiv mavjud emas va qalinlash odatda ishlatilmaydi.
3. Shriftning minimal hajmi - 12 piksel

Bundan tashqari (va bu erda biz madaniy komponentga murojaat qilamiz), xitoyliklar g'arbliklarga qaraganda miltillovchi grafiklarga kamroq e'tibor berishadi. Natijada, bizga haddan tashqari yuk bo'lib tuyulgan narsa ular uchun odatiy holdir.

Bundan tashqari, G'arb saytlarida qalqib chiquvchi oynalar paydo bo'lganligi sababli, Xitoy manbalari endi avvalgidek ulardan farq qilmaydi.

Yakunida

Tinish belgilari har qanday tilning ajralmas qismidir. Oddiy vergul jumlaning ma'nosini tubdan o'zgartirishi mumkin: "Qatlni kechirib bo'lmaydi" hikoyasini eslang. Tarjimon va muharrirlarning ishi esa ulardan kamida ikkita tinish belgilarini yaxshi bilishlarini talab qiladi.

Ushbu maqolaning g'oyasi biz maqolaning tarjimasini muhokama qilayotganimizda tug'ildi. Manba materialida foiz belgisi raqamdan bo'sh joy bilan ajratilgan va bu mening e'tiborimni tortdi - bu holda ruscha matnda bo'sh joy ishlatilmaydi (garchi bayonot hali ham bahsli bo'lsa-da - ekspertlar bir qarorga kelmagan. bu masala bo'yicha konsensus). Keyin biz bu haqda gaplashishimiz kerak deb qaror qildik. Ko‘p tilli mahalliylashtirish bo‘limi mutaxassislari xorijlik hamkasblarimiz bilan suhbat o‘tkazdi va hozir sizlar bilan bo‘lishadigan material tayyorladi. Umid qilamizki, sizga foydali bo'ladi.

Boshida va oxirida

Keling, gapda tinish belgilarining joylashishi bilan qanday turishini ko'rib chiqaylik: nuqta, vergul, ikki nuqta, nuqtali vergul, savol va undov belgilari.

Umid qilamizki, hamma rus tilini eslaydi - bir-biridan ajratilgan jumlalar faqat oxirida, nuqtada qo'yiladigan tinish belgilari. Agar siz ifoda qo'shishingiz kerak bo'lsa (ayniqsa shaxsiy yozishmalarda), belgilar kombinatsiyasi ishlatiladi - "!!!", "?!" va shunga o'xshashlar. Ingliz, nemis, italyan, frantsuz kanada, arab va braziliyalik portugal tillarida nuqtalar, ellipslar va ularning "o'rtoqlari" bir xil qoidalarga amal qiladi.

Frantsuz tilidagi boshqa qoidalar: ikki nuqta, nuqta-vergul, undov va savol belgilaridan oldin bo'shliqlar qo'yiladi.

Ispan tili bizning tanlovimizdagi yagona til bo'lib, unda tinish belgilari ramka jumlalari: iboraning boshida savol va undov belgilari "bir oz" teskari shaklda takrorlanadi - "¿" va "¡".

Xitoyliklar Yevropa nuqtai nazaridan tinish belgilariga eng noodatiy yondashuvga ega. Ularning davri 。 ga, vergul , ga, undov belgisi ! ga, so‘roq belgisi esa ? ga o‘xshaydi. Jumlada ular o'zlarini rus hamkasblari kabi tutishadi, yagona farq shundaki, xitoyliklar bo'sh joydan foydalanmaydilar, chunki barcha tinish belgilari ikki baytdan iborat. Klaviaturada yozilgan ieroglif lotin alifbosining har qanday harfidan ikki barobar kengroqdir. Shuning uchun tinish belgilari odatda ieroglif bilan bir xil joyni egallaydi. Bu xususiyatga DOS-da ishlaydigan eski IME-larda ishlaganlar duch kelgan, noto'g'ri kiritilgan ieroglif Backspace-ni ikki marta bosish orqali olib tashlangan. Bo'shliqlar asosan so'z va belgilarni boshqa tillardan, masalan, ingliz tilidan ajratish uchun ishlatiladi.

Yoqimli xususiyatlar

Rus tilida tire yoki chiziqcha qo'llaniladi. Defis qisqa boʻlib, qoʻshma soʻzlarni koʻchirish va bogʻlash uchun zarur. Chiziq sezilarli darajada uzunroq; u semantik qismlarni ajratish uchun xizmat qiladi: turli gaplar, bir gapning ikki qismi, dialoglarda va hokazo. Rus tili darsligini ko'rib chiqib, ushbu belgilarni ishlatishning barcha nozikliklarini eslab qolishingiz mumkin.

Defis va chiziqchalar ingliz, nemis, frantsuz va braziliyalik portugal tillarida o'xshash sharoitlarda mavjud. Bundan tashqari, amerikacha ingliz tilida tire ikkala tomondan bo'shliqlar bilan ajratilgan, ammo ingliz inglizlarida odatda bunday emas:

Ma'ruza - bu oyda ushbu mavzu bo'yicha uchinchi - turli mamlakatlardan ma'ruzachilarni o'z ichiga oladi. (Amerika inglizcha)

Hayvonot bog'ida juda ko'p mushuklar - sherlar, panteralar, yo'lbarslar, yaguarlar va gepardlar bor edi, bu esa sevimlini tanlashni qiyinlashtirdi. (Britaniya inglizcha)

Ispan, italyan va arab tillarida defis va chiziqlar bir xil ko'rinadi: "-". Xitoyliklar defisni umuman ishlatmaydilar - ularda faqat tire bor. Garchi lotin alifbosidagi harflar yonida defis, uzun tire va o'rta tire bo'lishi mumkin. Defis qisqa boʻlib, qoʻshma soʻzlarni koʻchirish va bogʻlash uchun zarur. Chiziq sezilarli darajada uzunroq; semantik qismlarni ajratish uchun xizmat qiladi

Tillar Defis Em tire (Alt 0151)
rus
Amerika inglizHa, qo‘shma so‘zlarni defis qo‘yish va qo‘shish uchunHa, semantik qismlarni ajratish uchun: turli xil jumlalar, bir gapning ikki qismi, dialoglarda va hokazo.
Ingliz
Britaniya
Ha, qo‘shma so‘zlarni defis qo‘yish va qo‘shish uchunHa, semantik qismlarni ajratish uchun: turli xil jumlalar, bir gapning ikki qismi, dialoglarda va hokazo. Ikkala tomonda bo'shliqlar bilan ajratilmagan.
nemisHa, qo‘shma so‘zlarni defis qo‘yish va qo‘shish uchunHa, semantik qismlarni ajratish uchun: turli xil jumlalar, bir gapning ikki qismi, dialoglarda va hokazo.
frantsuzHa, qo‘shma so‘zlarni defis qo‘yish va qo‘shish uchunHa, semantik qismlarni ajratish uchun: turli xil jumlalar, bir gapning ikki qismi, dialoglarda va hokazo.
Fransuz kanadasiHa, qo‘shma so‘zlarni defis qo‘yish va qo‘shish uchunHa, semantik qismlarni ajratish uchun: turli xil jumlalar, bir gapning ikki qismi, dialoglarda va hokazo.
ispanchaHa, barcha holatlarda-
portugal
braziliyalik
Ha, qo‘shma so‘zlarni defis qo‘yish va qo‘shish uchunHa, semantik qismlarni ajratish uchun: turli xil jumlalar, bir gapning ikki qismi, dialoglarda va hokazo.
italyanchaHa, barcha holatlarda-
arabHa, barcha holatlarda-
XitoyFaqat lotin alifbosidagi harflar yonidaHa, barcha holatlarda
Juftlangan harf turi


Qo'shtirnoq barcha tillarda mavjud, ammo milliy liboslar kabi ular boshqacha ko'rinishga ega. Rus tilida frantsuz tilidan olingan an'anaviy "Rojdestvo daraxtlari" va nemischa "panjalar" mavjud bo'lib, ular qo'shtirnoq ichidagi iboralarda va qo'lda yozishda ishlatiladi. Ispan, braziliyalik portugal, italyan va arab tillarida qo'sh tirnoq belgilari ishlatiladi.

Ingliz tilida "bitta" va "ikki" tirnoq belgilari qo'llaniladi: birinchisi sarlavhalar uchun, ikkinchisi - iqtibos uchun. Nuqta va vergul qo'shtirnoq ichida. Frantsuz matnida rus tilidan bir farqi bilan "baliq suyagi" mavjud: iqtibosli matnning boshi va ochiq qo'shtirnoq o'rtasida, shuningdek, iboraning oxiri va yakunlovchi tirnoq o'rtasida doimiy bo'shliq mavjud.

Xitoy tilida qo'shtirnoqning uch xil turi mavjud bo'lib, ular turli maqsadlarga xizmat qiladi. Bu kitoblar, filmlar va boshqa mualliflik asarlarining nomlari. Boshqa barcha holatlar uchun xitoyliklar 「such」 dan foydalanadilar. Evropa an'analaridan qo'shtirnoq belgilari ("Rojdestvo daraxtlari", "panjalar", "yakka" yoki "juft") faqat tarjimalarda yoki Evropa tillaridan olingan iboralar bilan birga bo'lishi mumkin. Ular an'anaviy xitoy tilida mashhurlikka erishmagan.

Qo'shtirnoq barcha tillarda mavjud, ammo milliy liboslar kabi ular boshqacha ko'rinishga ega.

Tillar«…» „…“ “…” ‘…’ 《…》 「…」
rusStandart, nuqta va vergul tashqaridaQo'shtirnoq ichida va qo'lda yozishda iboradagi muqobillarQo'lda yozishda alternativalar- - -
Ingliz
amerikalik
- - Sarlavhalar uchun standart- -
Ingliz
Britaniya
- - Iqtibos keltirishda standart, ichidagi nuqtalar va vergullarSarlavhalar uchun standart- -
nemis- Standart- - - -
frantsuzKotirovkalarni ochish va yopishdan oldin standart, uzilmaydigan bo'sh joy- - - - -
ispancha- - Standart- - -
portugal
braziliyalik
- - Standart- - -
italyancha- - Standart- - -
arab- - Standart- - -
XitoyFaqat tarjimalarda yoki Yevropa tillaridan iboralar bilan birgalikdaFaqat tarjimalarda yoki Yevropa tillaridan iboralar bilan birgalikdaFaqat tarjimalarda yoki Yevropa tillaridan iboralar bilan birgalikdaKitoblar, filmlar va boshqa mualliflik asarlari nomlari uchun standartBoshqa holatlar uchun standart
Simvolizm

Foizlar va ppm ham ayniqsa standart emas. Nemis, frantsuz va ispan tillarida bu belgilar uzilmaydigan bo'shliqlar bilan ajratilishi kerak. Va rus, ingliz, italyan, arab va braziliyalik portugal tillarida raqamdan keyin darhol yozing. Garchi ruslar bilan, biz eslayotganimizdek, vaziyat noaniq.

Darajalar va dyuymlar odatda raqamdan keyin bo'sh joysiz joylashtiriladi.

Qiziqarli fakt: frantsuzlar katta raqamlarni yozganda, ular uchta raqamdan iborat bloklarni bo'shliqlar bilan ajratadilar - masalan: 987,654,321,12.

Xitoyliklarning darajalar (káng) va foizlar uchun o'ziga xos belgilari bor (língjíí va língín). Biroq, odatdagi ° va% ular bilan birga ularning oldida bo'sh joysiz ishlatiladi.

Muloqot o'rnatish

Dialog formati ham tildan tilga farq qiladi. Rus tilida har bir satr oldiga em chiziqcha qo'yamiz. Braziliyalik portugal tilida so'zlashuvchilar ham shunday qilishadi.

Ingliz tilida "juft" va "single" tirnoqlari ishlatiladi, masalan:

— Mana, bir million funt, — dedi Marina va Simonga chamadon berib.

Marina davom etdi: "Men Ivan bilan gaplashdim va u: "Simon o'n million so'rayapti, lekin bu juda ko'p", dedi.

Nemis tilida dialoglar an'anaviy tirnoq belgilari - "panjalar" yordamida ham formatlanadi. Frantsuzlar chiziq muallifi o'zgargan hollarda "baliq suyaklari" ni, shuningdek, qisqa chiziqlarni qo'yishadi. Muloqot qismlari ispan tilida ham chiziqchalar bilan tinish belgilariga ega.

Italiya va arab tillarida dialog uchun qo'sh to'g'ri tirnoq belgilari ishlatiladi.

Xitoyliklar odatda dialogda faqat 「tirnoq belgilari」 yoki ularning inglizcha ekvivalentini qo'yadilar.

Katta yoki kichik


Ingliz, frantsuz, ispan, portugal, brazil va italyan tillarida hamma narsa oddiy va rus tilida so'zlashuvchilarga tanish - jumlalar boshida, qisqartmalar va tegishli nomlar uchun bosh harflar ishlatiladi.

Nemis tili ancha qiziqarli. Ismlar, ismlar va unvonlar, murojaatning muloyim shakli (Sie) barcha hol shakllarida (Ihr, Ihre, Ihrer, Ihres, Ihrem, Ihren) bosh harf bilan yoziladi. Gapda aniq (das Gute) yoki noaniq (ein Lächeln) artikl, bosh gap (Blauda), olmosh (dein Stottern), son (nichts Aufregendes) yoki sifatdosh bilan birga ot sifatida ishlatiladigan sifatlar, kesimlar va infinitivlar. flektiv shakl (lautes Sprechen). Hamma narsa :-)

Arab alifbosida kichik va katta harflar farqlanmaydi, lekin aksariyat harflar ikki, uch yoki to‘rt xil imloga ega: so‘zning boshi, o‘rtasi va oxiri, ba’zan esa so‘zdan tashqaridagi bitta harf uchun. Shunga o'xshash vaziyat xitoy tilida ham rivojlangan - kichik yoki katta harflarni farqlash mumkin bo'lishi dargumon. Va agar xitoylik mualliflar matnning bir qismini ajratib ko'rsatishlari kerak bo'lsa, ular uning tagiga chizishadi yoki qalin shriftdan foydalanadilar.

16

Men MySQL to'liq matnli qidiruvni yapon va xitoy matnlari, shuningdek, boshqa tillar bilan ishlashini istayman. Muammo shundaki, bu tillarda va ehtimol boshqa tillarda odatda so'zlar orasida bo'sh joy yo'q. Matndagi kabi bir xil jumlani kiritish kerak bo'lganda qidiruv foydali bo'lmaydi.

Men har bir belgi orasiga bo'sh joy qo'ya olmayman, chunki ingliz tili ham ishlashi kerak. Men bu muammoni PHP yoki MySQL bilan hal qilmoqchiman.

MySQL-ni o'z indekslari bo'lishi kerak bo'lgan belgilarni tanib olish uchun sozlay olamanmi? Ushbu belgilarni taniy oladigan PHP moduli bormi, shunda men indeks atrofidagi bo'shliqlarni tashlab qo'yaman?

Qisman yechim:

$string_with_spaces = preg_replace("/[".json_decode(""\u4e00"")."-".json_decode(""\uface"")."]/", " $0 ", $string_without_spaces);

Bu xarakterlar sinfini hech bo'lmaganda men alohida muomala qilishim kerak bo'lgan ba'zi belgilardan chiqaradi. Ehtimol, indekslangan matnni o'tkazib yuborish maqbul ekanligini eslatib o'tishim kerak.

Probga kiritishim kerak bo'lgan belgilarning barcha diapazonlarini kimdir biladimi?

Bundan tashqari, PHP da ushbu belgilarni ifodalashning yaxshiroq, ko'chma usuli bo'lishi kerakmi? Literal Unicode-dagi manba kodi mukammal emas; Men barcha qahramonlarni tanimayman; ular men foydalanishim kerak bo'lgan barcha mashinalarda ko'rinmasligi mumkin.

3

So'zlar orasida bo'sh joy ishlatmaydigan boshqa zamonaviy tillar - Tailand, Laos, Khmer (Kambodja) va Birma (Myanma). Vetnam tilida xorijiy so'zlardan tashqari barcha bo'g'inlar orasida bo'shliqlar ishlatilishi bilan bog'liq muammo bor. - hippietrail 18 dekabr 10 2010-12-18 12:48:10

  • 2 ta javob
  • Saralash:

    Faoliyat

15

Ko'rsatilgan tillar uchun so'zlarning buzilishi talab qilinadi lingvistik yondashuv , masalan, foydalanadigan lug'at asosiy tushuncha bilan birga vujudga keladigan qoidalar.

Men har bir alohida belgini xitoy tilida alohida so‘z sifatida ajratib turadigan, oxirgi foydalanuvchilar tomonidan taqdim etilgan qidiruv mezonlarining bir xil “tokenizatsiyasini” qo‘llaydigan nisbatan muvaffaqiyatli to‘liq matnli qidiruv ilovalari haqida eshitganman. Keyin qidiruv tizimi so'z belgilarini qidirish mezonlari bilan bir xil tartibda taqdim etadigan hujjatlar uchun yaxshiroq reytinglarni taqdim etadi. Buni yapon tili kabi tillarga ham kengaytirish mumkinmi, amin emasman, chunki Hirakana va Katagana belgilar to'plami matnni qisqa alifboli Yevropa tillariga o'xshash qiladi.

EDIT:
Resurslar
Bu so'z muammolarni sindirish uchun, shuningdek, tegishli masalalar, shuning uchun ahamiyatsiz bu haqda butun kitoblar yozilgan. Masalan, CJKV Axborotni qayta ishlash (CJKV xitoy, yapon, koreys va vetnam tillarini anglatadi, siz CJK kalit so'zidan ham foydalanishingiz mumkin, chunki ko'p matnlarda Vetnam tili muhokama qilinmaydi). Shuningdek qarang: Yapon tilida so‘zlarni buzish bu mavzu bo‘yicha bir peyjer uchun qiyin.
Ko'rinib turibdiki, ushbu mavzuni yorituvchi materiallarning aksariyati ona tilidagi asosiy tillardan birida yozilgan va shuning uchun bu tillarni nisbiy bilmaydigan odamlar uchun cheklangan. Shu sababli va qidiruv tizimini sinab ko'rishga yordam berish uchun so'zlarni buzish mantig'ini qo'llashni boshlaganingizdan so'ng, ona tilida so'zlashuvchi yoki ikkitadan yordam so'rashingiz kerak.

Turli fikrlar
Sizning fikringiz so'zni tizimli ravishda bildiruvchi xususiyatlarni aniqlash(aytaylik, qo'shtirnoq, qavslar, tirega o'xshash belgilar va shunga o'xshashlar) yaxshi va bu, ehtimol, ba'zi professional so'zlarni buzishda qo'llaniladigan evristik usuldir. Biroq, bunday ro'yxatni anekdot topilmalari asosida noldan tuzgandan ko'ra, nufuzli manbani izlash kerak.
Tegishli fikr so'zlarni ajratishdir Kanadan kanjiga o'tish(lekin men aksincha emas deb o'ylayman) va ehtimol hiragana-to-katakana yoki aksincha o'tishlar.
Buzilgan to'g'ri belgi bilan bog'liq bo'lmagan holda, indeks har bir, masalan, hiragana belgisini tizimli ravishda tegishli katakana belgisiga aylantirishdan foyda ko'rishi mumkin [-yoki bo'lmasligi mumkin- ;-)]. Shunchaki bilimsiz fikr! Bu yordam beradimi yoki yo'qligini bilish uchun men yapon tili haqida yetarlicha bilmayman; Intuitiv ravishda, bu bir nechta Evropa tillarida qo'llaniladigan urg'uli harflarni tizimli ravishda konvertatsiya qilish va shu tariqa tegishli urg'usiz yozuvga o'zgartirish bilan bog'liq bo'ladi.

Ehtimol, men ilgari aytib o'tgan individual belgilarni muntazam ravishda indeksatsiya qilish (va qidiruv natijalarini ularning qidiruv so'ziga yaqinlashishiga qarab tartiblash) g'oyasini biroz o'zgartirish mumkin, masalan, ketma-ket kana belgilarini birga saqlash va keyin boshqa qoidalar ... va nomukammal yaratish, lekin juda amaliy qidiruv tizimi.

Agar bunday bo'lmasa, xafa bo'lmang... Aytib o'tganimizdek, bu arzimas narsa emas va bir-ikkita kitobni to'xtatib, o'qish orqali uzoq muddatda vaqtingiz va pulingizni tejashingiz mumkin. "Nazariya" va ilg'or amaliyotlar haqida ko'proq ma'lumot olishga harakat qilishning yana bir sababi shundaki, siz hozirda diqqatni shu narsaga qaratganga o'xshaysiz. qoidabuzarlik so'zlari , lekin yaqin kelajakda qidiruv tizimi ham foyda keltirishi mumkin oqibatli ong ; Darhaqiqat, bu ikki savol hech bo'lmaganda lingvistik ahamiyatga ega va tandemda ishlov berilganda foydali bo'lishi mumkin.

Ushbu noxush, ammo munosib ishda sizga omad tilaymiz.

0

@Joe: Xush kelibsiz. Men tilshunoslikka va NLPga qiziqishim borga o'xshaydi, lekin CJK tillariga xos bilimlar juda kam. Qidiruvingizga yordam berishi mumkin bo'lgan kalit so'zlar va onlayn havolalarni qo'shib tahririmni o'qing :-) - mjv 22 oktyabr 09

Xitoy tili dunyodagi eng qadimgi yozma tillardan biridir. Uning tarixi kamida 3 ming yilga borib taqaladi. Undagi yozuvlar Shan sulolasi (miloddan avvalgi 1766-1123) davri toshbaqalarida topilgan.

Xitoy yozuvi tarixi

Xitoy yozuvi shumer yoki misrlikdan yoshroq, ammo O'rta Qirollikda yozuvning ixtiro qilinishiga Yaqin Sharq yozuvlari hech qanday tarzda turtki bo'lganligi haqida hech qanday dalil yo'q. Xitoy belgilarning eng qadimgi namunalari suyaklar va qobiqlardagi fol ochish matnlaridir. Ular folbinga berilgan savol va unga javobdan iborat. Ushbu dastlabki yozuv, uning dastlabki kunlarida piktogrammalarga asoslanganligini ko'rsatadi. Masalan, “sigir” so‘zi hayvonning boshi bilan, “yurish” esa oyoq surati bilan tasvirlangan.

Biroq vaqt oʻtishi bilan xitoy yozuvi koʻplab oʻzgarishlarga uchradi va bu vaqtga kelib (miloddan avvalgi 206-yil – 220-yillar) oʻzining obrazliligini yoʻqotdi. Zamonaviy ierogliflar eramizning 3—4-asrlarida shakllangan. e. Ajablanarlisi shundaki, shundan keyin ular deyarli o'zgarishsiz qoldi. Standart shakllardan tashqari, bir nechta qo'lda yozilgan shakllar ham mavjud. Eng keng tarqalganlari Tsaoshu va Xingshu. Birinchi turdagi maxsus tayyorgarliksiz odamlar uchun o'qish juda qiyin. Xingshu - bu Caoshuning yuqori tezligi va standart yozish o'rtasidagi o'ziga xos kelishuv. Ushbu shakl zamonaviy Xitoyda keng qo'llaniladi.

Xitoy tilida nechta belgi bor?

Lug'atdagi har bir morfemani ifodalash uchun xitoyliklar bitta o'ziga xos belgilardan foydalanadilar. Belgilarning katta qismi semantik ma'noga ega bo'lgan og'zaki tovushlarning yozma versiyalari. Vaqt o‘tishi bilan inqiloblar va siyosiy to‘ntarishlar tufayli yozuv tizimi o‘zgargan bo‘lsa-da, uning tamoyillari, belgilari bilan bir qatorda, mohiyatan o‘zgarishsiz qolgan.

Xitoycha so'z belgilari dastlab odamlar, hayvonlar yoki narsalarni tasvirlagan, ammo asrlar davomida ular tobora ko'proq stilize qilingan va endi ular tasvirlagan narsaga o'xshamaydi. Ularning soni 56 mingga yaqin bo'lsa-da, ularning aksariyati oddiy o'quvchiga noma'lum - u savodli bo'lishi uchun faqat 3000 tasini bilishi kerak. Ehtimol, bu raqam xitoy tilida qancha belgi borligi haqidagi savolga eng ishonchli javob beradi.

Soddalashtirilgan logogrammalar

1956 yilda minglab belgilarni o'rganish muammosi xitoycha belgilarni yozishni soddalashtirishga olib keldi. Natijada 2000 ga yaqin logogrammani o‘qish va yozish osonlashdi. Ular chet eldagi mandarin kurslarida ham o'qitiladi. Bu belgilar oddiyroq, ya'ni ular an'anaviylarga qaraganda kamroq grafik elementlarga ega.

Soddalashtirilgan belgilar yuzlab yillar davomida mavjud bo'lib kelgan, ammo savodxonlikni oshirish uchun 1950-yillarda Xitoy Xalq Respublikasi tashkil etilgandan keyin rasman yozuvga kiritilgan. Soddalashtirilgan logogrammalar xalqning kundalik gazetasi "Xalq so'zi" tomonidan qo'llaniladi va yangiliklar va videolar uchun subtitrlarda qo'llaniladi. Biroq, to'g'ri yozgan odamlar an'anaviy versiyani bilmasligi mumkin.

Ushbu tizim XXR (Gonkongdan tashqari) va Singapurda standart hisoblanadi va an'anaviy xitoy Gonkong, Tayvan, Makao, Malayziya, Koreya, Yaponiya va boshqa mamlakatlarda standart bo'lib qolmoqda.

Fonetik harf

Kanton tilida so'zlashuvchilar o'zlarining fonetik belgilar tizimini ishlab chiqdilar. Bu belgilar an'anaviy xitoycha belgilarga qo'shimcha sifatida ishlatiladi, masalan, komikslar yoki gazeta va jurnallarning ko'ngilochar bo'limlarida. Ko'pincha bu ierogliflarni lug'atda topib bo'lmaydi. Etkazish uchun norasmiy logogrammalardan foydalaniladi

Pinyin

Xitoy tilini G‘arbga tushunarliroq qilish maqsadida Xitoy Pinyin tizimini ishlab chiqdi. U 1977 yilda Xitoydagi geografik joylarni Pinyin tizimidan foydalanib nomlash to'g'risida BMTga rasmiy so'rov yuborgan. Pinyin lotin alifbosini yaxshi biladigan va xitoy tilida gapirishni o'rganayotganlar tomonidan qo'llaniladi.