WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     | 1 |   ...   | 12 | 13 || 15 |

На сайте Управлением Верховного комиссара ООН по правам че ловека (УВКПЧ) представлены также оценочные данные по количест ву людей, говорящих на каждом языке. Если мы ранжируем языки по количеству говорящих на них людей и нанесем языки на график, построенный в логарифмическом масштабе, то увидим, что соотно шение количества говорящих на языке и их ранга (позиции) среди го ворящих на других языках мира практически соответствует кривой закона Ципфа (Рис. 1) (по крайней мере, в интервале от десятков до сотен).

4. Альтернативные точки зрения Рис. 1 Кривая квази закона Ципфа 1 10 100 Ранг говорящих на языке Языковое разнообразие в Азии становится более явным, если посмот реть на разнообразие алфавитов, используемых для представления языков. С позиции сложности локализации разнообразие алфавитов – это проблема. Трудно ответить на вопрос, сколько алфавитов существу ет в мире, поскольку ответ зависит от единицы измерения. В данной статье для простоты мы объединяем в одну категорию все латинские алфавиты, алфавиты и их расширения для европейских языков, вьет намского, филиппинского и др. Мы принимаем за одну категорию ки риллические и арабские языки. Точно так же, в рамках одной катего рии мы рассматриваем китайские иероглифы, японское силлабическое письмо и корейский хангыль. Остальные алфавиты включают индий ские письменности, которые составляют пятую категорию. В нее входят не только индийские алфавиты типа деванагари, бенгали, тамильский, гуджарати и другие, но и 4 крупнейших языка Юго Восточной Азии:

тайский, лаосский, камбоджийский (кхмерский) и мьянмский. Невзи рая на разницу в написании, эти алфавиты имеют общее происхожде ние (древний язык брахми) и ведут себя одинаково при кодировании.

Если сложить число людей, говорящих на каждом языке, в соответст вии с данной группировкой по алфавитам, то мы получим картину, представленную в Таблице 1. Тогда алфавиты, используемые в Азии, распространятся на все пять категорий, в то время как алфавиты, ис Количество говорящих на языке (х 10 000) Измерение языкового разнообразия в Интернете пользуемые в других частях мира, представляют собой, в основном, ла тинский, кириллический, арабский и некоторые другие.

Таблица 1. Распределение групп пользователей по основным категориям алфавитов Алфавит Латин Кирилли Арабский Ханьцзы Индийская Другие* ский ческий группа Кол во пользователей 2 238 451 462 1 085 807 (млн) % от общего 43,28 8,71 8,93 20,98 15,61 2,числа * Другие: греческий, грузинский, армянский, амхарский, дивехи, иврит и пр.

Современное состояние охвата языков – ситуация с Windows По сравнению с прошедшим десятилетием современные продукты информационно телекоммуникационных технологий (ИКТ) способны до известной степени оперировать с многоязычием. Благодаря появле нию стандарта кода многоязычных знаков в виде ISO/IEC 10646, кото рый используется и для стандарта Юникод, а также благодаря сложной интернационализации программного обеспечения в течение 10 лет вы росло количество языков, поддерживаемых основными настольными платформами ИКТ. Однако охват языков данными платформами все еще ограничен. Самая последняя версия Windows XP (Professional SP2)* способна работать с 123 языками. Однако, если мы внимательнее по смотрим на этот список, то увидим, что большинство представленных в нем языков – европейские и лишь немного азиатских и африканских языков. Охват языков показан в Таблице 2. Здесь языки разбиты по группам алфавитов, как это было описано в первой части статьи.

Так, по подсчетам, на тех языках, с которыми работает Windows XP, го ворят 83,72 % от общего числа населения Земли. Хотя данная цифра * По состоянию на год издания оригинальной версии данного сборника.

4. Альтернативные точки зрения может быть истолкована как довольно неплохая, нам она кажется завы шенной, и плохо соотносится с реальностью, что мы покажем ниже.

Таблица 2. Охват языков Windows XP SP с разбивкой по основным категориям алфавитов Регион Латин Кирил Арабский Ханьцзы Индийская Прочие алфавита ский лица группа Европа Европей Русский, – – – Греция ские* и сла македон Грузия вянские** ский и Армения языки славян ские языки*** Азия Азербай Монголь Арабский, Китай Гуджарати, Асси джанский, ский, урду, пер ский, тамильский, рий вьетнам азербай сидский япон телугу, ский, ский, ма джанский, ский, каннада, джи лайский, казахский, корей бенгаль вехи, индонезий киргиз ский ский, иврит ский, узбек ский, уз малаялам, ский, турец бекский пенджаби, кий хинди, маратхи, санскрит, конкани, ория, тайский * Включают: албанский, баскский, каталанский, датский, голландский, англий ский, эстонский, фарерский, финский, французский, галисийский, немецкий, венгерский, исландский, итальянский, латвийский, литовский, мальтийский, норвежский, португальский, румынский, саами, испанский, шведский и вал лийский языки.

** Включают: сербский, чешский, хорватский, словацкий, боснийский, поль ский и словенский языки.

*** Включают: белорусский, болгарский, сербский, боснийский и украинский языки.

Измерение языкового разнообразия в Интернете Ситуация с Google Поисковые машины стали неотъемлемой составляющей глобального ин формационного общества. Их работа делает доступным огромный мас сив знаний. Когда мы изучаем охват языков наиболее распространенны ми поисковыми машинами, мы видим, что ситуация здесь гораздо хуже, чем в случае с Windows. Одна из самых распространенных многоязыч ных поисковых машин – Google – проиндексировала по состоянию на ап рель 2005 г. свыше 8 млрд страниц на разных языках мира. Однако ока залось, что эти страницы представляют всего лишь 35 языков. Среди них только 7 азиатских языков: индонезийский, арабский, китайский тради ционный, китайский упрощенный, японский, корейский и иврит (Табли ца 3). Если подсчитать численность охваченного населения, то она со кратится до 61,37 % именно потому, что материалы, написанные на ази атских и африканских языках, недоступны для поиска.

Таблица 3. Охват языков Google с разбивкой по основным категориям алфавитов Регион Латинский Кирил Арабский Ханьцзы Индий Прочие алфавита лица ская группа Европа Европей Русский, – – – Греция ские* и сла болгар вянские** ский, серб языки ский Азия Индонезий – Арабский Китай – Иврит, ский ский турец традици кий онный и упро щенный, япон ский, ко рейский *Включает: каталанский, датский, голландский, английский, эстонский, финский, французский, немецкий, венгерский, исландский, итальянский, латвийский, ли товский, норвежский, португальский, румынский, испанский и шведский языки.

**Включает: хорватский, чешский, польский, словацкий и словенский языки.

4. Альтернативные точки зрения Многоязычный характер Всеобщей декларации прав человека Приведем еще один пример. Как мы упомянули в начале нашей статьи, на веб сайте Управления Верховного комиссара ООН по правам челове ка Всеобщая декларация прав человека представлена на более чем 300 языках мира, начиная с абхазского и заканчивая зулу. К сожале нию, там также можно найти и много переводов на разные языки, осо бенно, на языки с нелатинским алфавитом, и эти переводы даны в ви де GIF или PDF файлов, а не в виде кодированных текстов. И снова, как и в предыдущих случаях, представим эту ситуацию в виде таблицы (Таблица 4). Из нее понятно, что в виде кодированных текстов лучше всего представлены языки, использующие латинский алфавит. Языки, использующие другие алфавиты, индийские в особенности, с трудом поддаются кодировке. Если алфавит не удается представить в какой то одной из имеющих трех форм, он попадает в категорию «недоступных».

Более того, не так просто загрузить специальные шрифты для надлежа щего просмотра этих алфавитов. Сложность ситуации можно назвать цифровым разрывом между языками или «языковым цифровым разры вом».

Таблица 4. Представление Всеобщей декларации прав человека с разбивкой по основным категориям алфавитов Регион Латинский Кирил Арабский Ханьцзы Индий Прочие алфавита лица ская группа Европа Европей Русский, – – – Греция ские и сла болгар вянские ский, языки сербский Азия Индонезий – Арабский Китай – Иврит, ский ский турец традици кий онный и упрощен ный, Японский, корейский Измерение языкового разнообразия в Интернете Регион Латинский Кирил Арабский Ханьцзы Индий Прочие алфавита лица ская группа В каком Латинский Кирил Арабский Ханьцзы Индийский Другие алфавите лица представ лен Кодировка 253 10 1 3 0 PDF 2 4 2 0 7 GIF 1 3 7 0 12 Недо 0 0 0 0 1* 1* ступны * Недоступными языками являются магади и бходжпури.

Локализация информационных технологий – взгляд в прошлое Давайте посмотрим, что было 500 лет назад, когда была изобретена эпохальная технология книгопечатания. Буквопечатающая технология была независимо изобретена и на Востоке, и на Западе. На Востоке эта технология была впервые создана в XIII веке корейскими ремесленни ками и затем подхвачена китайцами. Но технология эта не получила развития и впоследствии была вытеснена ксилографией. Буквопечата ющая технология, распространенная сегодня повсеместно в Азии, ухо дит своими корнями в изобретение, сделанное Гуттенбергом в середине XV века.

Первый печатный пресс был привезен на Гоа в 1556 г. Считается, что это – первая печатная машина, привезенная в Азию. Вслед за ней другие машины были привезены в Манилу, Малакку, Макао и другие го рода Азии. Поначалу эти машины использовались для печати перевод ных или транслитерированных священных текстов с применением ла тинского алфавита, но позднее на них стали печатать разные тексты с отпечатками букв местных алфавитов. По мнению одного индийского историка первым печатным текстом в Азии с использованием местного алфавита стала книга на тамильском языке «Христианская доктрина».

4. Альтернативные точки зрения На второй странице этого текста содержится рассказ о том, какой под ход был использован при локализации печатной технологии на тамиль ском языке. Несмотря на то, что в тамильском языке всего 246 слогов, на второй странице представлено более 150 знаков в комплекте шриф та. Отец иезуит, проживавший в XVII веке где то на берегу Малабара, писал в Рим: «…в течение многих лет я жаждал увидеть в этой Провин ции какие нибудь книги, напечатанные на языке этой страны и на ее алфавите, …но сделать это мне пока не удалось. Главная причина в том, что мы должны составлять текст из более чем 600 отпечатков против 24 в Риме…» (Priolkar, 1958).

В Маниле, в то время центре испанских колоний, «Доктрина» была переведена на тагалогский язык в 1593 г. Однако так случилось, что пе ревод сопроводили транслитерированным текстом. Тагалогская версия «Доктрины» была составлена в трех вариантах: на тагалогском языке с использованием тагалогского алфавита; на тагалогском языке с ис пользованием латинского алфавита и на испанском языке с использо ванием латинского алфавита. За последующие 100 лет после того, как буквопечатающая технология была привезена в Манилу, два вторые ва рианта полностью вытеснили первый. В итоге тагалогский алфавит был полностью забыт даже местным населением (Hernandez, 1996). Изобра жение тагалогского шрифта на почтовой марке, выпущенной почтой Филиппин в 1995 г., показывает нам, как выглядел этот шрифт, и слу жит напоминанием об утерянном культурном наследии.

Эти два исторических события дают нам урок: когда локализация реализуется неудачно, появление новой технологии может разрушить систему письменности или даже саму культуру.

Стандарты кодировки как краеугольный камень локализации За цифровым языковым разрывом стоит множество причин: экономи ческих, политических, социальных и пр. Однако с технических пози ций локализация должна оставаться главным фактором. Как явствует из письма отца иезуита, отправленного 400 лет назад в Рим, отрывок из которого мы привели в самом начале нашей статьи, даже во време на технологии книгопечатания пионеры информационных технологий были вынуждены преодолевать аналогичные сложности, локализуя технологии в другую языковую среду, почти так же, как это делают сего Измерение языкового разнообразия в Интернете дня инженеры компьютерщики. Особым препятствием для нелатин ских алфавитов является отсутствие или недоступность соответствую щих стандартов кодировки. По этой причине разработчикам веб сайта с текстом Всемирной декларации прав человека пришлось поместить файлы, не поддающиеся кодированию, в виде изображений или в фор мате PDF. Если мы посмотрим на международно признанные справоч ники схем кодирования, например, IANA Registry of Character Codes (IANA, 2005) или ISO International Registry of Escape Sequences (IPSJ/ITSCJ, 2004), то не сможем найти в них схемы кодирования для таких языков, которые считаются «упущенными сквозь ячейки сети».

Следует отметить, что многие стандарты кодировки, принятые на на циональном уровне, используются для нескольких языков и имеют на циональный статус. Для семьи индийских письменностей первый наци ональный индийский стандарт был принят в 1983 г. Он получил назва ние Indian Standard Script Code for the Information Interchange (ISSCII).

Позже, в 1991 г., он претерпел изменения и вышел во втором издании под названием «National Standard IS 13194», который и используется в Индии в настоящий момент. Однако, несмотря на существование на циональных стандартов, поставщики технических средств, разработ чики шрифтов и даже конечные пользователи сами создавали собст венные таблицы кодирования, что приводило к неразберихе. Стимулом для создания так называемых экзотических схем кодирования или ло кальных внутренних кодировок послужило внедрение дружественных для пользователя средств создания шрифтов. Несмотря на то, что при кладные системы для этой области не являются автономными и широ ко распространяются через Сеть, необходимость в стандартизации не была осознана пользователями, поставщиками или разработчиками шрифтов. Отсутствие профессиональных ассоциаций и соответствую щих государственных учреждений – еще одна причина сложившейся неконтролируемой ситуации. Интересное исследование по всему мно гообразию индийских языков провела компания Aruna Rohra and Ananda of Saora Inc. (www.gse.uci.edu/markw/languages.html): на 49 та мильских веб сайтах она обнаружила существование 15 различных схем кодирования (Aruna & Ananda, 2005).

Pages:     | 1 |   ...   | 12 | 13 || 15 |



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.