WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

Pages:     ||
|

Таблица ~ 7,Q W E R T Y U I O P { } \ 5,15 4,25 3,35 3,25 2,68 1,88 2,45 3,80 4,05 4,65 6,10 6,38 7, A S D F G H J K L : " 2,05 1,67 1,45 0,30 1,22 1,02 0,80 1,85 2,57 3,80 4, Z X C V B N M,. 4,05 4,35 2,25 1,83 2,28 2,58 3,20 4,35 5,25 4,Здесь 26 латинскими буквами и 9 специальными символами указываются клавиши английской компьютерной клавиатуры, которые использованы для раскладки и которым снизу приписаны экспертные значения относительных трудозатрат на нажатия клавишей, т.е. экспертные значения величин k1, k2,..., kn.

Отметим закономерность, исходящую от экспертов:

клавишам, расположенным ближе к центру, выставлены меньшие оценки в сравнении с периферийными клавишами. В частности, легче достижимыми являются клавиши среднего ряда (на уровне Caps Lock), над которыми в исходном положении при “слепом десятипальцевом методе” печатания располагаются пальцы левой и правой рук.

Итак, таблица 1 определяет ранжирование клавишей с точки зрения экспертов. К примеру, в качестве K1 следует рассматривать клавишу “~” английской клавиатуры, показатель которой k1 7,имеет наибольшее значение; в качестве K35 - клавишу F, показателю которой приписывается наименьшее значение k35 0,30;

и т.д.

В § 3 обсуждается второй способ определения величин ki. В качестве таковых величин предлагается рассматривать расстояния, которые приходится преодолевать тому или иному пальцу левой или правой руки для того, чтобы из исходного состояния переместиться и осуществить разовое нажатие соответствующей клавиши в пределах зоны, отведенной для него “слепым десятипальцевым методом печатания”.

В § 4 отмечается приоритетность клавишей по мнению А.

Дворака, а в § 5 приводятся значения ki, предложенные и П.

Клауслером на основании его субъективного опыта по оценке трудозатрат на нажатие клавишей при наборе текстов большого объема.

Следует отметить, что все 4 способа определения значений ki порождают хотя и “близкие”, но все же различные упорядочения клавишей Ki, поскольку в каждом из них присутствуют элементы субъективности.

В § 6 отмечается, что понятие “ранжирование для всех”, т.е. в равной мере приемлемое, скажем, для подавляющей части человечества, не является объективно обусловленным и может иметь смысл лишь для однородных групп людей, вычленяемых по схожим признакам. В связи с тем, что современные технологии по сути с равной эффективностью и без заметной разницы в расходах могут “штамповать” и массовую и штучную продукцию, понятие оптимальной раскладки символов на клавиатуре принимает содержательный смысл как в применении к однородным группам людей, так и индивидуальным пользователям.

Глава 3. Ранжирование букв.

В этой главе представлены результаты исследований статистических закономерностей текстовой информации. Объектом изучения является частота встречаемости букв и пары букв (биграмм) в случайно выбранных текстах.

В § 1 приводится перечень текстов, случайные выборки из которых послужили основой для статистических исследований.

В § 2 на основе обработки текстов больших объемов впервые получено статистическое распределение частот встречаемости таджикских букв в таджикском языке. Установлено также, что ранжирование таджикских букв в порядке убывания их частоты встречаемости инвариантно относительно случайно выбранных текстов объема не менее 350 страниц.

В § 3 устанавливается аналогичное ранжирование русских и английских букв на основании известных распределений их частот встречаемости в текстах больших объемов.

В § 4 устанавливается, что 20-и страничные случайные выборки из таджикских текстов являются выборками минимального объема, которые несут в себе закономерности о распределении частот встречаемости букв, свойственные генеральной совокупности. Они объявляются репрезентативными ( R текстами) в том смысле, что значимо коррелируют между собой, более того они статистически неразличимы.

Аналогичное утверждение оказывается справедливым для русского и английского языков.

В §§ 5 и 6 рассматривается вопрос о порядке ранжировании букв таджикского, русского и английского языков по убыванию их частоты встречаемости. Установлено, что ранжирование букв, порождаемое относительными частотами, является неустойчивым (неинвариантным) по отношению к R - текстам. Иными словами, для различных R - текстов равных объемов ранжирования букв оказываются различными. При более детальном анализе удалось обнаружить новый нетривиальный инвариант, характеризующий устойчивость ранжирования буквенных блоков.

Поясним суть этого явления. Пусть, к примеру, из текстов на каком-либо естественном языке извлечено некоторое количество случайных выборок S1, S2,, Sn равного объема. В пределах каждой выборки подсчитаем частоты встречаемости всех букв и затем произведем их ранжирование в порядке убывания их частот. Далее сравним результаты ранжирования. Оказывается, что одни буквы независимо от рассматриваемой выборки сохраняют за собой одни и те же порядковые номера в общем ранжире. Другие же буквы “собираются” в группы, которые для любых выборок располагаются на одних и тех же порядковых номерах общего ранжира, т.е. буквы проявляют тенденцию блочного группирования.

Установлено, что блочное группирование букв характеризуется следующими свойствами:

в пределах одного блока относительные частоты букв достаточно близки (отличаются в третьем или же в четвертом знаках после запятой);

блоки упорядочены в том смысле, что частоты встречаемости букв из одного блока превосходят частоты каждой буквы из последующих блоков;

для различных текстов равных объемов порядок следования блоков (с одними и теми же наборами букв) остается неизменным; в пределах самих блоков входящие в них буквы равноправны и могут меняться местами.

Итак, статистические исследования показывают, что справедливо Утверждение 5.1. Буквы алфавита естественного языка не удается ранжировать однозначным образом по частоте их встречаемости в текстах одинаковых объемов.

Неоднозначность возникает из-за тех букв, которые попадают в один блок и имеют, по-существу, одинаковые частоты встречаемости. По этой причине вместо понятия ранжирования букв приходится пользоваться более общим понятием – ранжированием буквенных блоков.

Cоответствующие результаты для таджикского языка, полученные при обработке случайных выборок в 20 страниц (с повторностями), показаны в таблице 2. В ней буквенные блоки отмечены рамками (для однобуквенных блоков рамки не используются). Кроме того, числами сверху указывается ранжирование букв по убыванию их частоты встречаемости в текстах.

Таблица Блочное группирование таджикских букв в 20-и страничных выборках.

1 2 3 4 5 6 7 8 9 10 11 А И О Р Н Д М Т У Б С 13 14 15 16 17 18 19 20 21 22 23 24 К Е З Ш Л В Г Х Ф 26 27 28 29 30 31 32 33 34 Я П Ё Ъ Ч Й Э Ю Ж Из этой таблицы видно, что А, И, О, Р, М, Т, У, Б, С,, К, Ф, Ё, Й,, Э, Ю, и Ж образуют 18 однобуквенных блока. Все другие буквы разместились в 4-х двухбуквенных, в 1- м четырехбуквенном и 1-м пятибуквенном блоках. Как отмечено ранее, при переходе от одной выборки к другой буквенный состав блоков остается неизменным и лишь буквы внутри них могут обмениваться своими порядковыми номерами.

Утверждение 5.2. Ранжирование буквенных блоков, представленное в таблице 2, инвариантно по отношению к случайным текстам объемом в 20 страниц.

Так же как и для таджикского языка для русского и английского языков ранжирование букв неустойчиво по отношению к случайно выбранным текстам одинаковых небольших объемов. Однако в этих случаях блочные ранжирования букв проявляются даже для 10-страничных “однородных” текстов.

Соответствующие результаты приведены в таблицах 3 и Таблица Блочное группирование русских букв в 10-страничных выборках 1 2 3 4 5 6 7 8 9 10 11 12 13 14 О Е А И Н Т С Л Р В М К Д П У 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 Я Ы Ь Г Б З Ч Й Ж Х Ш Ц Щ Э Ф Ё Ъ Ю Таблица Блочное группирование английских букв в 10-страничных выборках 1 2 3 4 5 6 7 8 9 10 11 12 13 E T A O I N S R H D L C U M 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 W F G Y P B., V K " X J Z Q ;

В этих таблицах так же, как и в предыдущем параграфе, буквенные блоки отмечены рамками, причем для однобуквенных блоков рамки не использованы. И здесь устойчивость ранжирования буквенных блоков проявляется в том, что в русских и английских 10-страничных текстах буквы (символы) проявляют тенденцию “группирования”: для русского языка - в 17 блоков (в их числе блок - четырехбуквенный, 3 блока - трехбуквенных, 7 – двухбуквенных и 6 - однобуквенных), для английского языка – в блоков (среди них 1 блок – пятибуквенный, 1 блок – четырехбуквенный, 3 блока - трехбуквенных, 3 – двухбуквенных и 6 - однобуквенных; удобства ради в таблице 17, а также в некоторых других местах, знаки препинания и апостроф названы буквами).

В § 7 средствами ранговой корреляции Спирмена устанавливается следующие статистические Утверждение 7.1. Блочное ранжирование букв таджикского языка, представленное в таблиц 2, статистически инвариантно относительно случайных выборок объемом в 20 страниц.

Для русского и английского языков имеет место Утверждение 7.2. Блочные ранжирования букв русского и английского языков, представленные в таблицах 3 и 4, статистически инвариантны относительно случайных выборок объема в 10 страниц.

Высказанные утверждения иными словами означают, что если взять любую случайную выборку из таджикских текстов объемом, например, в 20 страниц, то для нее будет иметь место порядок ранжирования букв, представленный в таблице 2. Если же увеличивать объем выборки, то порядок ранжирования будет изменяться и лишь по достижению объема в 350 страниц и более, см. утверждение 2.1 из § 2, произойдет его стабилизация.

В § 8 приводятся данные о частоте встречаемости пары букв (биграмм) в достаточно длинных текстах. В главе 4 эти данные используются для уточнения характера раскладки букв на русской, английской и таджикской компьютерной клавиатуре.

Глава 4. Оптимальная раскладка буквенных блоков Пусть клавиши K1, K2,..., Kn и буквы (символы) a1, a2,..., an ранжированы условиями (1) и (2) соответственно. Тогда в согласии с § 3 главы 1 оптимальной будет такая раскладка, для которой на клавише Ki (i 1,..., n ) размещается буква (i 1,..., n ).

С теоретической точки зрения высказанное утверждение завершает решение рассматриваемой задачи. Такое решение было бы вполне приемлемым для практических целей, т.е. для проектирования оптимальной раскладки букв какого-либо естественного языка на компьютерной клавиатуре, если ранжирование букв и клавишей оказалось бы строго монотонным.

С ранжированием букв, как это ясно из главы 3, связаны определенные проблемы. Причина в том, что частота встречаемости букв является случайной величиной, возможные значения которой зависят от конкретного текста. Поэтому, если мы собираемся использовать клавиатуру на наборы достаточно больших текстов, то нам следует воспользоваться таким ранжированием букв естественного языка, которое соответствует частотам их встречаемости в генеральной совокупности, т.е. в выборках больших объемов. Если же мы ориентируемся на наборы текстов относительно небольших объемов, то мы должны использовать ранжирование букв в коротких выборках.

В связи со сказанным в главе 4 раскладка символов на клавиатуре компьютера производится с расчетом на наборы текстов - достаточно больших объемов, см. § 1;

- сравнительно малых объемов, §§ 2-4.

Во втором случае для таджикского, русского и английского языков, прежде всего, осуществляется оптимальная раскладка буквенных блоков, которая привязывает группы букв к группам клавишей. Такая раскладка не дает единственного решения интересующей нас проблемы. Тем не менее, для таджикского языка в сравнении с начальной ситуацией, предоставлявшей выбор из 35! 1040 возможных раскладок, она значительно сокращает число допустимых решений до 46080 эквивалентных раскладок в том смысле, что при наборе одного и того же текста на любой из оставшихся раскладок затрачивается одна и та же работа. Для русского и английского языков начальный выбор мог осуществляться среди 33! 1036 и 30! 1032 раскладок, а после применения блочной оптимизации для последующего выбора оставались 663552 и эквивалентных раскладок.

Дальнейший этап в принятии решения связывался с поисками таких раскладок, которые наилучшим образом приспособлены к реализации “слепого десятипальцевого метода” работы на клавиатуре. Отметим, что на этапе окончательного формирования раскладок русских, английских и таджикских букв на компьютерной клавиатуре, существенно используются данные о частотах встречаемости в текстах пар букв (биграмм).

Получаемые таким образом раскладки названы нами эргономичными, поскольку на первом этапе их проектирования оптимальным образом размещаются буквенные блоки, а на втором - фиксация позиций букв внутри блоков осуществляется для наилучшего обеспечения “слепого десятипальцевого метода” печатания. Следует оговорить особо, что на втором этапе проектирования не удается полностью устранить элементы субъективизма в принятии решений, а потому в итоге эргономичных раскладок может оказаться несколько.

Далее приводится один из вариантов эргономичной раскладки таджикских букв на компьютерной клавиатуре.

Рис. 1. Одна из эргономичных таджикских раскладок На этом рисунке в верхней строке символы и буквы английской клавиатуры указывают позиции тех клавишей, на которых располагаются таджикские буквы в соответствии с “наилучшей раскладкой”.

В § 5 предложено еще одно возможное решение проблемы раскладки таджикских букв на компьютерной клавиатуре. Оно основывается на вполне приемлемой гипотезе о том, что раскладка знаков кириллицы на компьютерной клавиатуре всесторонне продуманна и, несмотря на то, что положенные в её основу принципы раскладки полностью не известны, может служить образцом для подражания.

В § 6 отмечается, что для пользователя, работающего с таджикской графикой, создана специальная компьютерная программа, которая позволяет ему в диалоговом режиме проектировать оптимальную с его точки зрения раскладку таджикских букв на клавиатуре компьютера.

Список опубликованных работ по теме диссертации 1. З.Д.Усманов, О.М.Солиев. Закономерности статистического распределения частот встречаемости букв в таджикском языке // ДАН РТ, Душанбе. 2003, Т. 46, № 3-4, с.59-62.

2. З.Д.Усманов, О.М.Солиев. О “наилучшей” раскладке таджикских букв на компьютерной клавиатуре // ДАН РТ, Душанбе. 2004, Т. 47, № 3, с.56-61.

Pages:     ||
|



© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.