ابزار تبدیل نوشته فارسی به یونی کد
ابزار تبدیل نوشته فارسی به یونی کد با این ابزار شما میتوانید نوشته های فارسی خود را تبدیل به یونیکد کرده و در صفحات وب استفاده نمایید. توضیحات بیشتر را در ادامه مطلب مشاهده نمایید.

با توجه به اندازه ابزار مجبور به گذاشتن ابزار در لینک جدید شدم
یونیکد چیست؟
از جمله استانداردهای بینالمللی که کاملتر از بقیه استانداردهای موجود به رفع نیازهای مربوط به تبادل اطلاعات چندزبانه پرداختهاست، میتوان به استاندارد یونیکد اشاره کرد.
این استاندارد، تقریباً توسط تمامی شرکتهای بینالمللی کامپیوتری، مانند آیبیام، مایکروسافت، و سان، و نیز موسسات ملی استاندارد در کشورهای مختلف جهان برای تبادل اطلاعات چندزبانه مورد توافق قرار گرفته است و سرعت رشد بسیار زیادی نیز در میان کاربران دارد. همینطور، در حال حاضر کلیه استانداردهای جدیدی که برای شبکه اینترنت طراحی میشوند، این دو استاندارد را بهعنوان کدپیج پیشفرض میپذیرند که استاندارد XML و زبان جاوا از آن جملهاند.
به زبان ساده میتوان گفت که یونیکد روشی برای تبدیل متون به رشتههای عددی قابل ذخیره در کامپیوتر است. روشهای گوناگونی برای این کار وجود دارند، ولی مزیت یونیکد نسبت به آنها، این است که یک روش کامل جهانی است؛ به این معنی که حروف همه زبانهای دنیا و تمامی علائم مورد استفاده همه مردم جهان در آن آمدهاند و همچنین در همهجا قابل نمایش است و نیاز به امکانات خاصی ندارد. البته یونیکد هنوز جوان است ولی امروزه بسیاری نرمافزارهای رایج در جهان (از جمله همه مرورگرهای جدید اینترنت) آن را پشتیبانی میکنند.
از مهمترین مزایایی که یونیکد برای زبان فارسی دارد (مثل بسیاری زبانهای دیگر) میتوان موارد زیر را نام برد:
۱٫ در نسخه استاندارد هر نرمافزاری که از این استاندارد پشتیبانی کند، میتوان فارسی نوشت یا متون فارسی را خواند. بدین ترتیب دیگر نیازی به تأمین نسخههای خاص فارسی یا عربی نیست.
۲٫ برای خواندن متون فارسی که توسط شرکت خاصی نوشته شدهاند، نیازی به داشتن فونت خاص آن شرکت نداریم و هر متن فارسی که با استاندارد یونیکد، کدگذاری شده باشد، با هر فونت یونیکدی قابل مشاهده است.
۳٫ امکان استفاده همزمان از زبانهای فارسی و انگلیسی را تأمین میکند.
۴٫ بدون استفاده از فونتهای خاص امکان استفاده از علائم خاص را فراهم میکند.
به بیان دیگر، «استاندارد یونیکد» استاندارد جهانی کدگذاری کارکترهاست که برای پردازش کامپیوتری متون به کار میرود. این استاندارد همان کاراکترها و کدهای استاندارد ISO/IEC 10646 را داراست و کاملا با آن سازگار است. پس در واقع هر پیادهسازی سازگار با یونیکد، با ISO/IEC 10646 نیز سازگار است.
یونیکد امکان کدگذاری همه کاراکترهای مورد استفاده در نوشتن زبانهای دنیا را فراهم آوردهاست. این استاندارد از کدگذاری ۱۶بیتی استفاده میکند که برای بیش از۶۵۰۰۰ نویسه (کاراکتر) جا فراهم میکند. اگر چه ۶۵۰۰۰ نویسه برای کدگذاری اکثر نویسههایی که در زبانهای مهم دنیا استفاده میشود کافی است، با این حال یونیکد شیوهگسترشی بهنام UTF-16 فراهمکردهاست که امکان اضافهکردن حدود یک میلیون نویسه دیگر را نیز میدهد. این دامنه برای کلیه نویسههای عالم، از جمله پوشش کامل همه خطهای باستانی (همچون خط میخی) نیز کافی است.
یونیکد برای کلیه نویسههای مورد استفاده در زبانهای عمده دنیا کد تعیینکردهاست. بهعلت گستردهبودن فضای تخصیص نویسه، این استاندارد بسیاری از نمادهای لازم برای حروفچینی را نیز در بر گرفتهاست. از خطهای مورد پشتیبانی این استاندارد میتوان به لاتین (دربرگیرنده اکثر زبانهای اروپایی)، سیریلیک(روسی، صربی)، یونانی، عربی (شامل عربی، فارسی، اردو، کردی)، عبری، هندی، ارمنی، آسوری، چینی، کاتاکانا و هیراگانا(ژاپنی)، و هانگول (کرهای) اشارهکرد. بهعلاوه، تعداد زیادی نماد ریاضی و فنی علائم نقطهگذاری، پیکان، و علامتهای متفرقهدر این استاندارد وجود دارد. این استاندارد برای علامتهای ترکیبشونده یا اعرابها نیز کدهایی در نظر گرفتهاست کهاز جمله آنها علامتهایی چون «˜» (مد)هستند که در ترکیبب حروف پایه، حروف تغییرلحن یافتهای چون «ñ» را میسازند.
به طور کلی، بعضی از مشخصات یونیکد به شرح زیر است:
» نویسههای شانزدهبیتی
» یکیسازی (اختصاص یک کد به نویسههای مشترک در چند زبان مختلف)
» نویسه، نه شکل (یک «ع»، و نه چهارتا: «ﻋ»، «ﻌ»، «ﻊ»، «ﻉ»)
» بار معنایی (حرفبودن، مقدار عددی، …)
در استاندارد یونیکد، نویسههای فارسی در بلوک مربوط بهخط عربی قرار دارند. این بلوکبرای دربرگرفتن نویسههای زبانهایی کهاز خط عربیاستفادهمیکنند، مثل فارسی، اردو، پشتو، سندی، و کردی گسترش یافته است. این بلوک نشانههای قرآنی از قبیل نشانههای سجده و پایان آیه، و علائم وقف را نیز در بردارد.
در یونیکد با وجود یکیسازی کدهای حروف مشترک، برای حروف فارسی که بار معنایی یا نمایشی متفاوت با حروف عربی دارند، نویسههای جداگانه درنظر گرفتهشدهاست. یعنی کلیه حروف خاص فارسی (پ، چ، ژ، گ) و نیز «ک» و «ی» فارسی کهبا حرف مشابهدر عربیتفاوت نمایشی دارند، مکانجداگانهای بهخود اختصاص دادهاند. کلیه اعرابهای متداول حضور دارند و میان شکلفارسی/اردو و عربی ارقام نیز بهعلت شکل و رفتار متفاوت، تفاوتهایی منظور گشتهاست.
از طرف دیگر، علائم نقطهگذاری چون نقطه و فاصله کهشکلی کسانیدر خطهای لاتین و عربی دارند، کد یکسان دارند. علائمیچون پرانتز نیز، بسته به جهت متن، آینهای میشوند، به طور مثال، نویسه ۰۰۲۸ نماینده «پرانتز باز» است، و نه«پرانتز سمتچپ». یونیکد اتصالمجازی و فاصله مجازی را نیز تحتنامهای «اتصال با عرضصفر» و «بیاتصالی با عرضصفر» بهرسمیت میشناسد.
بدین ترتیب ملاحظه میشود که برای حل مشکلات موجود، و نیز رفتن به سوی یک استاندارد مقبول و همهجانبه، استاندارد یونیکد، روشی مناسب به نظر میرسد. در شمارههای آتی ماهنامه نیز به این موضوع از جنبههای دیگر خواهیم پرداخت.
اصطلاحات:
نویسه: در مقابل character. کوچکترین واحد متن. مثلاً یک حرف لاتین، یک اعراب فارسی، یکی علامت نقطهگذاری، یک نشانه بریل، یا یک نماد ریاضی
شکل: در مقابل glyph. کوچکترین واحد نمایش متن. برای بعضی نویسهها مثل حروف فارسی و هندی ممکن است چند شکل موجود باشد. مثلاً « ﺑ » و « ﻊ » از اشکالنمایشی محسوب میشوند.
مجموعه نویسه: در مقابلcharacter set. مجموعهای از نویسهها کهبههر نویسه عددی اختصاصمیدهد که نماینده آن نویسه محسوب میشود و در تبادل اطلاعات مورد استفادهقرار میگیرد.
مجموعه کد: در مقابل codepage. سیستمی که بههر نویسه دنباله مشخصیاز بایتها را متناظر میکند. مجموعهنویسهها میتوانند بهشکل یا چند مجموعه کد قابل استفادهباشند.
منبع ابزار:کدبازان
منبع نوشته فوق:webkaran.com
مطالبتون خوبه
نظر لطفتونه برادر