Синтаксис и семантика паскаль. Синтаксис программы Лексика синтаксис и семантика языка программирования

  • Дата: 07.03.2024

Я. П. – искусственный язык, разработанный человеком для облегчения процесса решения задачи с помощью ЭВМ. Этот язык позволяет либо описание алгоритма решения задачи – тогда он называется процедурно-ориентированным , либо постановку задачи в математической форме – проблемно-ориентированный.

Языки:

1. Универсальные (задачи из любой предметной области)

2. Специализированные (в узкой области)

Уровень Я.П.

1. Низкий (ассемблер, символьные ср-ва)

2. Высокий

Особенность: существует возможность автоматического перевода, трансляции текста, записанного на ЯП в логически эквивалентную последовательность действий на языке машинных команд.

По способу трансляции:

1. Компилятор

2. Интерпритатор

3. Генератор

Алфавит – фиксированный набор символов, из которых должен составляться текст.

Синтаксис – система правил, определяемых допустимые конструкции из символов алфавита. Его стараются описать формально.

Семантика – система правил истолкования языковых конструкций. Описывается строго, формально, однозначно, но описывается в свободной форме.

3. Способы формального определения синтаксиса языка программирования

Синтаксис = метаязык + синтаксические диаграммы

Метаязык – специальный надязык, с помощью которого описывается другой язык.

Набор символов метаязыка:

< > - угловые скобки (заключают языковые конструкции)

{ } – фигурные скобки (заключенные в них понятия встречаются нуль или более раз)

– квадратные скобки (заключенное понятие может быть опущено)

Вертикальная черта (альтернатива, «или», | ), ::=, =.

Символы ЯП в метаязыке – терминальные символы.

Из символов алфавита строятся смысловые языковые конструкции. Простейшими из них являются слова языка .

Лексема – слово языка, последовательность символов, не содержащая пробелов.

Виды лексем:

1. Идентификатор – используется для обозначения программы или других объектов (дать имя функции, типу и т.д.)

2. Ключевые слова – служебные идентификаторы, зафиксированные в ЯП; используются для образования законченных смысловых конструкций языка, их называют предложениями языка.

3. Оператор – описание, определение, нужное для передачи информации транслятору. Оператор используется для описания действий, является единицей действия.

Синтаксическая диаграмма - это направленный граф с одним входным ребром и одним выходным ребром и помеченными вершинами. Синтаксическая диаграмма задаёт язык. Цепочка пометок при вершинах на любом пути от входного ребра к выходному - это цепочка языка, задаваемого синтаксической диаграммой. Поэтому можно считать, что синтаксическая диаграмма - это одна из форм порождающей грамматики автоматных языков.



Объекты программы.

Любая конструкция, которая имеет семантическое значение в рамках данного языка. Величина, с которой связано не только имя и значение, но и некоторая область памяти, где хранится значение этой величины.

Выделяют следующие:

1. Константы - неизменяемые величины.

Константами называются перечисление величин в программе. В языке программирования С разделяют четыре типа констант: целые константы, константы с плавающей запятой, символьные константы и строковые.

2. Переменные

Одним из основных понятий языка Си является объект - именованная область памяти. Частный случай объекта – переменная. Отличительная особенность переменной состоит в возможности связывать с её именем различные значения, совокупность которых определяется типом переменной. При задании значения переменной в соответствующую ей область памяти помещается код этого значения. Доступ к значению переменной наиболее естественно обеспечивает её имя, а доступ к участку памяти возможен только по его адресу. Каждая переменная перед её использованием в программе должна быть определена, т.е. для переменной должна быть выделена память. Размер участка памяти, выделяемой для переменной, и интерпретация содержимого зависят от типа, указанного в определении переменной. Определены целочисленные типы: char – целый длиной не менее 8 бит, short int – короткий целый, int - целый, long – длинный целый. Каждый из целочисленных типов может быть определен либо как знаковый signed либо как беззнаковый unsigned. Стандартом языка введены следующие вещественные типы: float – одинарной точности, double – удвоенной точности, long double – максимальной точности.

3. Функции.



Функция - это именованная часть программы, к которой можно обращаться из других частей программы столько раз, сколько потребуется. В определении функции указываются последовательность действий, выполняемых при обращении к функции, имя функции, тело результата (возвращаемого значения) и совокупность формальных параметров, заменяемых при обращении к функции фактическими параметрами (аргументами).

Общий вид определения объекта

Тип имя [инициализатор];

Объекты класса static по умолчанию получают значение 0, кл. extern - не получают.

Объект определяется только один раз . По определению устанавливаются атрибуты объекта, выделяется память для него, имя объекта, связанное с адресом области памяти. Если есть инициализатор, то еще и начальное значение.

Понятие типа данных

Тип данного – это совокупность информации о значении величины, которая позволяет использовать эту величину при решении задачи на компьютере.

С типом данных связываются: множество предопределенных значений (область значений), множество операций, которые можно выполнять над величиной данного типа, размер памяти, выделяемой для хранения значения, и структура значения. Структура значения определяет класс типа: простой или сложный. Значение простого типа является неделимым целым, значение сложного типа состоит из отдельных частей – элементов сложного значения. Область значений – это интервал от минимального до максимального значения, которое может быть представлено в переменной данного типа.

Переменные можно инициализировать в месте их описаний.

Система типов - это особая система, по которой организуются данные, используемые прикладными решениями. Система типов позволяет представить информацию реального мира в терминах, "понятных" для Я.П.

Понятие простого типа.

Простой тип - тип данных, объекты (переменные или постоянные) которого не имеют доступной программисту внутренней структуры.

Значение неделимо ни на какие части

Операции над всем значением в целом.

Делятся на:

Базовые - простой скалярный тип данных, все составляющие которого уже определены разработчиком; именованные.

Доопределяемые программистом - Программист сам определяет множество допустимых значений

Простыми скалярными типами, предопределенными в Си (их называют базовыми типами), являются:

– целые типы: char, int, long int;

– плавающие типы: float, double, long double.

Целый тип char используется еще и для представления значений символов (символьного типа). Целые типы имеют две формы – знаковую (signed) и беззнаковую (un-signed). В сокращенном виде signed может быть опущено.

Состоит из:

множество допустимых значений

множество допустимых операций

размер оперативной памяти, выделяемой для хранения (char - 1б, int - 2б, long - 4б)

внутреннее представление значения (целое положительное число - двоичным значением, отрицательное - двоичным дополнением и т.п.)

структура значения

Сложные типы

Сложный (составной) тип - тип данных, объекты (переменные или постоянные) которого имеют внутреннюю структуру, доступную программисту.

Сложные типы характеризуются тем, что любое значение такого типа состоит из множества компонентов (элементов), каким-то образом связанных между собой в единое целое, т.е. имеет сложную структуру.

Сложный тип строится по следующим правилам .

1. Элемент сложной структуры может иметь как простую, так и сложную структуры. Таким образом, значения сложных типов в общем случае имеют иерархическую структуру, на самом нижнем уровне ко-торой элементы только простого типа (при этом уровень вложенности может ограничиваться или нет).

2. Внутри сложной структуры тип всех элементов может быть: – одинаков – однородная структура, – различен – неоднородная структура.

3. Количество элементов в структуре может быть: – фиксировано в течение времени существования структуры (структуры фиксированного размера или статические); – переменным, т.е. динамически меняться путем включения или исключения элементов в процессе работы со структурой (структуры переменного размера или динамические).

4. Обращение (доступ) к элементам структуры может быть: – непосредственное (прямое) – вычисляемое (по индексу или месту в структуре) или не вычисляемое (по имени элемента); – последовательное – характерное для структур переменного раз-мера. Вид обращения определяется способом объединения компонентов в единую структуру.

5. Значение структуры может храниться либо в оперативной (внутренняя структура), либо во внешней памяти

Массивы, строки

Регулярный тип (массив) – это сложный тип с однородной структурой фиксированного размера и прямым вычисляемым доступом к элементам. Размер структуры фиксируется при описании массива. Элементы массива занимают непрерывную область памяти, т.е. последовательно располагаются друг за другом. Элементы в массиве нумеруются, начиная с нуля.

Задание переменной регулярного типа (массива) имеет вид

<спецификация типа> <идентификатор> [<константное выражение>]

Здесь квадратные скобки являются терминальными символами.

Константное выражение определяет число компонентов в массиве, поэто-му его значение целого типа.

Идентификатор – это имя переменной типа массив.

Тип компонентов задается спецификацией типа . Тип компонентов может быть любой (кроме файлового). Если тип компонентов простой, то определяемая структура будет одномерной (линейной), если сложный, то многомерной (нелинейной).

Многомерный массив – это массив, элементы которого типа массив. Задание многомерного массива:

<спецификация типа> <идентификатор> []…

Здесь K1 , K2,...,Kn – константные выражения. Причем K1 задает раз-мер массива по первому измерению, K2 – по второму измерению, а Kn – по n-му измерению. Например, описание x задает массив x, состоящий из k1 элементов. Каждый элемент x имеет тип массив, состоящий из k2 элементов. Иначе можно сказать, что x – это двумерный массив (матрица), где k1 – размер по первому измерению, т.е. количество строк в двумерном массиве – матрице; k2 – размер по второму измерению, т.е. количество столбцов в матрице. Таким образом, двумерный массив рассматривается как одномерный массив, каждый элемент которого также одномерный массив. Элементы матрицы хранятся в памяти ЭВМ по строкам.

Для обращения к элементам массива необходимо указать имя массива и место (индекс) элемента в структуре: имя массива [<индекс>] или имя массива [<индекс1>][<индекс2>]…[<индекс n>] соответственно для одномерного и n-мерного массивов. Индекс задается выражением, значение которого должно быть целого типа и определяет номер компонента. Значение индекса принадлежит диапазону от нуля до размера массива, уменьшенного на единицу.

Обратиться к элементу массива можно еще одним способом – используя для этого указатель. Указатель – это переменная, значением которой является адрес другой переменной, т.е. номер (адрес) единицы памяти, которая выделена для переменной. Указатель может ссылаться только на объекты заданного типа. Имя массива является константой-указателем на первый элемент массива.

Строки. Значением «строкового» типа является последовательность символов (слово «строковый» заключено в кавычки, так как в Си явно такой тип не определен и, говоря о строковом типе, мы имеем в виду тип данных, обладающий свойствами строкового типа). «Строковый» тип (или просто строка) в Си рассматривается как подмножество типа массив. Строка задается одномерным массивом, элементы которого есть символы, последний символ массива – „\0‟. Эта «нуль-литера» является признаком конца строки. Литера „\0‟, так же как и другие символы, входит в строку. Размер строки (количество символов) определяется решаемой задачей и ограничивается доступным объемом памяти.

Так как строковый тип – это особый массив, то для строки сохраняются все свойства регулярного типа (т.е. над отдельными элементами можно выполнять операции, допустимые для базового типа). С «нуль-литерой» можно работать как и с остальными символами (не забывая о ее основном назначении).

Исходный текст это, как правило, последовательность символов, состоящая из слов, разделенных символами-разделителями и оканчивающаяся символом-признаком конца текста. При выборе структуры данных для отображения

текста надо стремиться к тому, чтобы текст занимал минимально необходимый объем памяти, и выбранная структура предоставляла средства для быстрого (непосредственного) обращения к элементам текста, которыми, как правило, являются его слова. Таким требованиям отвечает структура данных – массив.

Текст можно представить:

Двумерным массивом - матрицей, строка которой это слово текста, оканчивающееся символом конца строки-‘\0’. Количество столбцов равно максимальной длине слова плюс один (символ ‘\0’). Количество строк равно максимальному числу слов в тексте. Обращение к строке матрицы это обращение к слову. Чтобы создать такую структуру, надо читать текст посимвольно, помещая каждое очередное слово в новую строку матрицы и добавляя к слову символ ‘\0’.

Одномерным массивом – строкой. Такая структура полностью соответствует внешнему представлению текста. Размер массива равен максимальной длине исходного текста с учетом

разделителей. Чтобы обратиться к слову, необходимо последовательно просматривать символы массива, обнаруживая очередной символ-разделитель, который завершает текущее слово, за ним начинается новое слово. Так продолжаем, пока очередное слово не завершится признаком конца строки.

9. Неоднородные типы (структура)

Неоднородный тип (структура, запись) позволяет конструировать структуры данных самой произвольной природы. Он используется для представления объектов, имеющих достаточно сложное, неоднородное строение и, как правило, используется при создании различного рода информационных систем. Значение неоднородного типа состоит из фиксированного количества элементов (полей) разных типов, поэтому каждый элемент должен иметь уникальное имя, которое используется для доступа к элементу.

Программист сам описывает неоднородный (структурный) тип, задавая его «внутреннее строение»: количество элементов, их тип и имена. Описание неоднородного типа:

struct <имя структурного типа>

{ <определения элементов> };

Здесь struct – служебное слово – спецификатор структурного типа, <имя структурного типа> – идентификатор типа, произвольно выбираемый программистом (<имя структурного типа> может быть опущено), <определения элементов> – совокупность одного или более описаний объектов, каждый из которых определяет тип элемента, вводимого структурного типа.

Определение объекта (например, переменной) именованного структурного типа имеет вид struct <имя структурного типа> < список структур>;

или <имя структурного типа> < список структур> ; где < список структур> – список выбранных программистом имен структур.

Определять переменные структурного типа можно одновременно с описанием типа. Определение объекта неименованного структурного типа имеет вид:

{ <определения элементов> } < список структур>;

Таким образом, структуры (переменные) неименованного структурного типа определяются одновременно с описанием самого типа. Такой вариант используется для однократного определения структур. Так как элементы структур могут быть любых типов, то допускается вложение структур, т.е. элементом структуры может быть другая структура. В этом случае описание структурных типов должно быть сделано в такой последовательности, чтобы используемый в описании структурный тип был определен ранее.

При определении структура может быть инициализирована . При определении объекта структурного типа ему выделяется память в таком количестве, чтобы могли разместиться данные всех элементов. Размер памяти в байтах, выделенный для структуры можно получить с помощью операции sizeof, например sizeof (struct point). Для обращения к элементам структуры используется уточненное имя (первичное выражение) вида <имя структуры> . <имя элемента структуры> Здесь точка означает операцию доступа к элементу структуры, у нее самый высокий приоритет. Уточненные имена элементов структур обладают всеми правами объектов соответствующих типов. Над элементами структуры можно выполнять операции, допустимые для их типа.

Структура может быть параметром функции и возвращаемым (основным) функцией значением.

Указатель

Указатель – это переменная, значением которой является адрес другой переменной, т.е. номер (адрес) единицы памяти, которая выделена для переменной. Указатель может ссылаться только на объекты заданного типа (в качестве идентификатора может выступать имя переменной, массива, структуры, строкового литерала). В том случае, если переменная объявлена как указатель, то она содержит адрес памяти, по которому может находится скалярная величина любого типа. При объявлении переменной типа указатель, необходимо определить тип объекта данных, адрес которых будет содержать переменная, и имя указателя с предшествующей звездочкой (или группой звездочек). Формат объявления указателя:

спецификатор-типа [ модификатор ] * описатель.

Спецификатор-типа задает тип объекта и может быть любого основного типа, типа структуры, смеси (об этом будет сказано ниже). Задавая вместо спецификатора-типа ключевое слово void, можно своеобразным образом отсрочить спецификацию типа, на который ссылается указатель. Переменная, объявляемая как указатель на тип void, может быть использована для ссылки на объект любого типа. Однако для того, чтобы можно было выполнить арифметические и логические операции над указателями или над объектами, на которые они указывают, необходимо при выполнении каждой операции явно определить тип объектов. Такие определения типов может быть выполнено с помощью операции приведения типов.

В качестве модификаторов при объявлении указателя могут выступать ключевые слова const, near, far, huge. Ключевое слово const указывает, что указатель не может быть изменен в программе. Размер переменной объявленной как указатель, зависит от архитектуры компьютера и от используемой модели памяти, для которой будет компилироваться программа. Указатели на различные типы данных не обязательно должны иметь одинаковую длину.

Для модификации размера указателя можно использовать ключевые слова near, far, huge.

Файлы.

Файловый тип – это тип, который связывает программу с внешними устройствами ЭВМ. Значение файлового типа представляет собой произвольной длины последовательность компонент.

Размер файла (т.е. длина последовательности) никак не оговаривается при объявлении файла и ограничивается только емкостью устройств внешней памяти. Для указания конца структуры используется признак конца файла (end of file).

В Си файл рассматривается как поток или последовательность символов (байтов), независящая от конкретного устройства, с которым ведется обмен данными. При обмене с потоком часто используется вспомогательный участок основной памяти, называемый буфер потока (буфер ввода, буфер вывода).

При работе с потоком можно производить следующие действия:

Открывать и закрывать потоки;

Анализировать условие достижения конца потока (конца файла) и ошибки ввода-вывода;

Получать и устанавливать указатель текущей позиции в потоке;

Управлять буферизацией потока и размером буфера.

Все операции ввода-вывода реализованы с помощью функций, находящихся в библиотеке языка Си. Чтобы использовать эти функции, необходимо включить в программу заголовочный файл stdio.h, который содержит прототипы функций ввода-вывода, определения констант, типов и структур, необходимых для работы функций. Поток можно открыть в текстовом или двоичном режиме. В соответствии с этим различают файлы текстовые и двоичные.

При открытии файла в текстовом режиме прочитанная из потока последовательность символов преобразуется, если это необходимо из символьного представления во внутреннее представление. Например, если при форматном вводе читается числовая информация, то происходит преобразование прочитанной последовательности символов в двоичное целое или число с плавающей точкой в соответствии со спецификацией формата; при форматном выводе числовой информации происходит преобразование из внутреннего представления числа в последовательность символов, изображающих число. Последовательность символов, хранящаяся в текстовом файле, может быть разбита на строки. При записи в текстовый поток символа новой строки ‘\n’ он заменяется последовательностью символов CR (“возврат каретки”) и LR (“перевод строки”). При

чтении из текстового файла последовательность символов CR и LR преобразуется в один символ новой строки ‘\n’.

Если в файле хранится не текстовая информация, а двоичная, то никакие преобразования не должны выполняться. Например, в файл записывается (а затем читается) числовая информация в своем внутреннем представлении. Такой файл надо открыть как двоичный.

Функции форматного обмена предназначены для ввода/вывода отдельных символов, строк, целых и вещественных чисел всех типов. При вводе данные помещаются в буфер, а затем побайтно или определенными порциями передаются программе пользователя. При выводе данных в файл они сначала накапливаются в буфере, а при заполнении буфера записываются в виде единого блока в файл за одно обращение к нему. Таким образом, использование буфера позволяет сократить число обменов с файлом. Буфер выделяется программе по умолчанию при открытии файла.

Функция читает последовательность символов из входного потока, начиная с байта, на который показывает текущее положение указателя файла. Ввод прекращается, если встретился пробельный символ или прочитано количество символов, указанных в спецификации преобразования. Прочитанная последовательность символов интерпретируется в соответствии с форматной строкой (форматная строка просматривается последовательно от первого символа к последнему) как символьное представление целого числа или вещественного числа или один символ или строка символов. Затем преобразуется во внутреннее представление и записывается в область памяти очередной переменной из списка аргументов (указатель текущей позиции файла при этом перемещается на новую текущую позицию в соответствии с числом прочитанных байтов).

Этот процесс продолжается пока не исчерпана форматная строка или не достигнут конец файла или не произошла ошибка. В первом случае функция возвращает количество объектов, получивших значение при вводе, при достижении конца файла – возвращает константу EOF, в случае ошибки – значение –1.

Функция просматривает форматную строку слева направо, все встреченные произвольные символы выводит в файл, при встрече спецификации преобразования вычисляет значение соответствующего ему выражения из списка аргументов, преобразует его из внутреннего представления в последовательность символов в соответствии со спецификацией и выводит в текущую позицию файла. Для каждого аргумента должна быть указана одна спецификация преобразования. Если аргументов меньше, чем спецификаций, то результат зависит

от реализации языка. Вывод заканчивается, когда исчерпана форматная строка или возникла ошибка. Функция возвращает число выведенных символов, а при ошибке отрицательное число.

В двоичном режиме в файл можно записать содержимое любой области памяти без преобразования из внутреннего представления. Таким образом, форма представления данных в памяти и в двоичном файле одинакова. Поэтому при чтении из двоичного файла преобразование во внутреннее представление не нужно. Для обмена с двоичным файлом используются функции fread и fwrite.

Во всяком языке программирования определены способы организации данных и способы организации действий над данными. Кроме того, существует понятие «элементы языка», включающее в себя множество символов (алфавит), лексемы и другие изобразительные средства языка программирования. Несмотря на разнообразие указанных языков, их изучение происходит приблизительно по одной схеме. Это связано с общностью структуры различных языков программирования высокого уровня, которая схематически отражена на рис. 1.12.

Рис. 1.12. Структуры языка программирования высокого уровня

В изучении естественных языков и языков программирования есть сходные моменты. Во-первых, для того чтобы читать и писать на иностранном языке, нужно знать алфавит этого языка. Во-вторых, следует знать правописание слов и правила записи предложений, т.е. то, что называется синтаксисом языка. В-третьих, важно понимать смысл слов и фраз, чтобы адекватно реагировать на них. Смысловое содержание языковой конструкции называется семантикой.

Язык программирования имеет три основные составляющие: алфавит, синтаксис и семантику.

Синтаксис языка программирования – совокупность правил написания чисел, переменных, выражений, операторов, процедур и других элементов и синтаксических конструкций данного языка программирования.

Семантика языка программирования – совокупность правил, определяющих смысл чисел, переменных, выражений, операторов, процедур и других элементов и синтаксических конструкций данного языка программирования.

Соблюдение правил в языке программирования должно быть более строгим, чем в разговорном языке.

Для описания синтаксиса языка программирования тоже нужен какой-то язык. В этом случае речь идет о метаязыке («надъязыке»). Метаязык – язык, используемый для описания других языков. Наиболее распространенными метаязыками являются металингвистические формулы Бекуса-Наура (язык БНФ) и синтаксические диаграммы. В дальнейшем мы чаще всего будем использовать язык синтаксических диаграмм. Он более нагляден, легче воспринимается. В некоторых случаях для удобства мы будем обращаться к отдельным элементам языка БНФ.

В БНФ всякое синтаксическое понятие описывается в виде формулы, состоящей из правой и левой части, соединенных знаком::=, смысл которого эквивалентен словам «по определению есть». Слева от знака::= записывается имя определяемого понятия (метапеременная), которое заключается в угловые скобки < >, а в правой части записывается формула или диаграмма, определяющая все множество значений, которые может принимать метапеременная.

Синтаксис языка описывается путем последовательного усложнения понятий: сначала определяются простейшие (базовые), затем все более сложные, включающие в себя предыдущие понятия в качестве составляющих.

В такой последовательности, очевидно, конечным определяемым понятием должно быть понятие программы.

В записях метаформул приняты определенные соглашения. Например, формула БНФ, определяющая понятие «двоичная цифра», выглядит следующим образом:

<двоичная цифра>::=0|1.

Значок | эквивалентен слову «или». Это определение можно представить на языке синтаксических диаграмм (рис. 1.13).

Рис. 1.13. Понятие «двоичная цифра» на языке синтаксических диаграмм

В диаграммах стрелки указывают на последовательность расположения элементов синтаксической конструкции; кружками обводятся символы, присутствующие в конструкции.

Понятие «двоичный код» как непустую последовательность двоичных цифр БНФ описывает так:

<двоичный код> ::= <двоичная цифра> | <двоичный код> <двоичная цифра>.

Определение, в котором некоторое понятие определяется само через себя, называется рекурсивным. Рекурсивные определения характерны для БНФ.

Синтаксическая диаграмма двоичного кода представлена на рис. 1.14.

Рис. 1.14. Синтаксическая диаграмма двоичного кода

Возвратная стрелка обозначает возможность многократного повторения. Очевидно, что диаграмма более наглядна, чем БНФ.

Синтаксические определения языка программирования состоят из имени, определяемого в настоящий момент и не определенного где-либо выше термина, за которым следует двоеточие (:). Альтернативы обычно следуют за этим в отдельных строках, но могут также помещаться и в одной строке, в таком случае им предшествует фраза «одно из».

Грамматические правила лексики языка рассматриваются с точки зрения существования раз-личных категорий словоориентированных языковых единиц (лексем), распознаваемых компилятором. Грамматические правила структуры фраз подробно определяют допустимые способы группирования лексем в выражения, операторы и прочие смысловые единицы языка.

Например, лексемы языка C++ образуются из последовательности операций, выполняемых с программой компилятором и препроцессором языка.

Программа на языке C++ – последовательность ACSII-символов, представляющих собой ее исходный код, создаваемый при работе в текстовом редакторе.

Базовая программная единица в языке C++ представляет собой файл. Обычно такой файл соответствует файлу ОС, находящемуся в оперативной памяти или на диске и имеющему созданное по правилам ОС имя и расширение.С или.СРР.

На фазе компиляции, отвечающей за распознавание лексем, файл исходного кода программы подвергается лексическому анализу (т.е. разбиению на лексемы и пробелы). Пробельными обобщенно именуются собственно символы пробелов, горизонтальные и вертикальные символы табуляции, символы новой строки и комментарии. Пробельные символы служат для обозначения мест начала и конца лексем и сверх этой функции для исключения из компиляции всех избыточных символов, не входящих в состав лексем.

ASCII-символы, обычно рассматриваемые как пробельные, могут входить в строки литералов и в данном случае будут защищены от нормального процесса разбиения на лексемы и пробелы.

Комментарии – текстовые части, предназначенные для аннотирования программы. Комментарии перед лексическим анализом исключаются из исходного текста программы.

Традиционный комментарий языка С представляет собой любую последовательность символов, помещаемую после пары символов /*. Признаком конца комментария служит первая пара символов */, встретившаяся после исходной пары /*.

Компилятор языка C++ распознает лексемы шести классов: ключевые слова, идентификаторы, константы, строковые литералы, операции и знаки пунктуации (также называемые разделителями). Формальное описание лексемы имеет следующий вид:

– ключевое слово;

– идентификатор;

– константа;

– строковый литерал;

– операция;

– знак пунктуации.

Во время лексического анализа исходного кода выбирается лексема максимальной длины. Например, слово external будет рассматриваться как отдельный идентификатор, а не как ключевое слово extern, за которым следует идентификатор al.

Ключевые слова – слова, зарезервированные для специальных целей, которые не должны использоваться в качестве обычных имен идентификаторов.

Формальное определение идентификатора имеет следующий вид:

– не-цифра;

– идентификатор не-цифра;

– идентификатор цифра.

Не-цифра: одно из

abcdefghijklmnopqrstuvwxyz_ ;

ABCDEFGHIJKLMNOPQRSTUVWXYZ;

цифра: одно из

Идентификатор – произвольное имя любой длины, присваиваемое классам, объектам, функциям, переменным, определяемым пользователем типам данных и т.д. Идентификаторы могут содержать буквы от А до Z и от а до z, символ подчеркивания (_) и цифры от 0 до 9. Существуют только два ограничения:

– первый символ должен являться буквой или символом подчеркивания;

– уникальность и контекст идентификаторов.

Хотя имена идентификаторов могут быть произвольными (в пределах изложенных правил), в случае использования одного и того же имени для более чем одного идентификатора в пределах одного контекста и разделении ими одного пространства имен возникает ошибка. Повторение имен в различных пространствах имен допустимо всегда, независимо от контекста.

Константами называются лексемы, представляющие собой фиксированные числовые или символьные значения. Тип данных константы определяется компилятором по таким ключевым характеристикам, как числовое значение и формат, используемым при записи константы в исходном коде. Определение формата константы:

– константа-с-плавающей-точкой;

– целочисленная-константа;

– перечислимая-константа;

– символьная-константа.

Операциями называются лексемы, вызывающие некоторые вычисления с переменными и объектами, указанными в выражении. Набор операций C++ включает в себя помимо обычных арифметических и логических операций средства манипуляции с данными на битовом уровне, доступа к компонентам структур и объединений, а также операции с указателями (установка и обращение по ссылке).

Контекст, видимость, продолжительность и тип компоновки определяют части программы, из которых могут быть сделаны допустимые ссылки на идентификатор с целью доступа к соответствующему объекту.

Объект – идентифицируемая область памяти, которая может содержать фиксированное значение переменной (или набор таких значений). Каждая величина имеет связанное с ней имя и тип (который также называют типом данных). Имя используется для доступа к объекту. Имя может являться простым идентификатором либо сложным выражением, уникальным образом «указывающим» на данный объект.

Тип используется:

– для определения требуемого количества памяти при ее исходном распределении;

– для интерпретации битовых кодов, находимых в объектах при последующих к ним обращениях;

– в ситуациях контроля, требуемого для обнаружения возможных случаев недопустимого присваивания.

Объявления устанавливают необходимые соотношения распределения памяти между идентификаторами и объектами. Каждое объявление связывает идентификатор с некоторым типом данных. Большинство объявлений, известных как объявления определения, также задают создание (где и когда) объекта, иначе говоря, распределение физической памяти и ее возможную инициализацию. Прочие объявления, называемые объявлениями ссылки, просто делают указанные в них идентификаторы известными компилятору. Один и тот же идентификатор может иметь множество объявлений ссылки, особенно в многофайловых программах, однако для каждого идентификатора допустимо только одно объявление определения.

Для связи идентификаторов с объектами требуется, чтобы каждый идентификатор имел как минимум два атрибута: класс памяти и тип (иногда его называют типом данных).

Класс памяти задает размещение объекта (сегмент данных, регистр, куча или стек) и продолжительность времени его существования (все время работы программы либо же при выполнении некоторых конкретных блоков кода). Класс памяти может быть установлен синтаксисом объявления, расположением в исходном коде или обоими этими факторами.

Тип данных определяет размер памяти, распределяемый объекту, и то, каким образом программа будет интерпретировать битовые коды, находящиеся в этой памяти. Тип данных можно рассматривать как множество значений, которые может принимать идентификатор данного типа, совокупно с множеством операций, выполнение которых допустимо для значений этого типа.

Контекст идентификатора – часть программы, в которой данный идентификатор может быть использован для доступа к связанному с ним объекту. Существуют пять категорий контекста:

– функция;

– прототип функции;

Контекст зависит от того, как и где объявлены идентификаторы.

Идентификатор, имеющий контекст типа блока (или локального контекста), начинается в точке объявления и заканчивается в конце блока, содержащего данное объявление (такой блок называется объемлющим блоком). Объявления параметров в определении функции также имеют контекст типа блока и ограничены контекстом блока, где эта функция определена.

Идентификаторами, имеющими контекст типа функции, являются метки операторов. Имена меток могут быть использованы в операторах GOTO в любой точке функции, где объявлена данная метка. Имена меток в пределах функции должны быть уникальными.

Идентификаторы, объявленные в списке объявлений параметров в прототипе функции (не являющиеся частью определения функции), имеют контекст прототипа функции. Конец этого контекста совпадает с концом прототипа функции.

Идентификаторы с контекстом файла, называемые часто глобальными, объявляются вне всех блоков и классов; их контекст лежит между точкой объявления и концом исходного файла.

Класс – именованный набор компонентов, включая структуры данных и действующие с ними функции. Контекст класса относится, за некоторыми исключениями, к именам компонентов конкретного класса. Классы и их объекты имеют множество специальных правил доступа и определения контекста.

Пространство имен – это контекст, в пределах которого идентификатор должен быть уникальным.

Видимость идентификатора – область исходного кода программы, из которого допустим нормальный доступ к связанному с идентификатором объекту.

Обычно контекст и видимость совпадают, однако бывают случаи, когда объект временно скрыт вследствие наличия идентификатора с тем же именем. Объект при этом не прекращает своего существования, но исходный идентификатор не может служить для доступа к нему до тех пор, пока не закончится контекст дублирующего идентификатора.

Видимость не может выходить за пределы контекста, но контекст может превышать видимость.

Загрузочный модуль (выполняемая программа) создается из полученных в результате раздельной компиляции объектных модулей с автоматическим поиском и присоединением библиотечных подпрограмм и процедур. Компоновка – это процесс, который позволяет правильно связать каждое вхождение идентификатора с одним конкретным объектом или функцией. Все идентификаторы имеют один из трех атрибутов компоновки, тесно связанных с их контекстом: внешняя компоновка, внутренняя компоновка или отсутствие компоновки. Эти атрибуты определяются местоположением и форматом объявлений, а также явным (или неявным по умолчанию) использованием спецификатора класса памяти.

Каждое вхождение конкретного идентификатора с типом компоновки внешняя представляет тот же самый объект или функцию во всех файлах и библиотеках, составляющих программу.

Идентификаторы с типом компоновки отсутствие представляют уникальные элементы программы.

Правила внешней и внутренней компоновки:

– любой идентификатор объекта или файла, имеющий файловый контекст, будет иметь внутренний тип компоновки, если его объявление содержит спецификатор класса памяти static ;

– если объявление идентификатора объекта или функции содержит спецификатор класса памяти extern , то идентификатор имеет тот же тип компоновки, что и видимое объявление идентификатора с файловым контекстом. Если такого видимого объявления не имеется, то идентификатор будет иметь внешний тип компоновки;

– если функция объявлена без спецификатора класса памяти, то ее тип компоновки определяется, как если бы был использован спецификатор класса памяти extern ;

– если идентификатор объекта с файловым контекстом объявлен без спецификатора класса памяти, то идентификатор имеет внешний тип компоновки.

Все шесть взаимосвязанных атрибутов (класс памяти, тип, контекст, видимость, продолжительность и тип компоновки) могут быть определены разными способами с помощью объявлений.

Различают объявления определения (их обычно просто называют объявлениями) и объявления ссылки (иногда называемыми неопределяющими объявлениями). Объявление определения, как и следует из названия, выполняет две функции: объявления и определения. Неопределяющие объявления требуют наличия где-либо далее в программе определений. Объявление ссылки просто вводит в программу одно или более имен идентификаторов. Определение фактически распределяет объекту память и связывает идентификатор с этим объектом.

В число объектов, которые могут быть объявлены, входят:

– переменные;

– функции;

– классы и компоненты классов;

– компоненты структур;

– компоненты объединений;

– массивы прочих типов;

– перечислимые константы;

– метки операторов.

Спецификатор типа с одним или более модификатором используется для задания типа объявляемого идентификатора.

Типы делятся на фундаментальные и производные. К фундаментальным типам относятся: void, char, int, float, double, short, long, signed, а также некоторые варианты unsigned. Производные типы включают в себя указатели и ссылки на другие типы, массивы других типов, типы функций, типы классов, структуры и объединения. Объект класса может, например, содержать некоторое число объектов различных типов вместе с функцией манипуляции этими объектами, плюс механизм контроля доступа и наследования от других классов.

Фундаментальные спецификаторы типа создаются из следующих ключевых слов:

char, int, signed, double, long, unsigned, float, short.

На базе этих ключевых слов можно построить интегральные типы и типы с плавающей точкой, которые в совокупности называются арифметическими типами. Типы char, short, int и long называются интегральными типами.

Простые объявления идентификаторов переменных имеют следующий шаблон:

тип данных перем1 <=иниц1>, перем2 <=иниц2>,...;

где перем1, перем2, ... – это произвольная последовательность отдельных идентификаторов. Каждая из переменных объявляется с указанным типом данных.

Указатели делятся на две основные категории: указатели объектов и указатели функций. Указатели обоих типов представляют собой специальные объекты, хранящие адреса памяти. Два этих класса указателей имеют отличные друг от друга свойства, назначения и правила манипулирования, хотя и те, и другие разделяют между собой определенные операции. Указатели функций используются для доступа к функциям и для передачи одних функций другим в качестве аргументов; выполнение арифметических операций с указателями функций не допускается. Указатели объектов при сканировании массивов или более сложных структур памяти регулярно инкрементируются и декрементируются.

«Указатель на объект типа type» содержит (то есть указывает) адрес объекта с типом type. Поскольку указатель сам по себе является объектом, то можно установить указатель на указатель. В число прочих объектов, на которые обычно устанавливается указатель, входят массивы, структуры и классы. Размер указателей объектов зависит обычно от модели памяти, размера и расположения сегментов данных.

Указатель функции лучше всего рассматривать как адрес, обычно в кодовом сегменте, где располагается выполняемый код функции. Это адрес, по которому передается управление при вызове функции. Размеры и расположение кодовых сегментов программы определяются действующей моделью памяти и в свою очередь определяют размер указателей функций, которые нужны для вызова функций.

Указатель функции имеет тип «указатель функции, возвращающей тип type», где type есть тип возвращаемых функцией данных.

Объявление указателя всегда должно устанавливать его на некоторый конкретный тип, даже если этот тип void (что фактически означает указатель на любой тип). Однако уже после объявления указатель обычно может быть переназначен на объект другого типа. Указатель со значением null – это адрес, гарантированно отличный от любого допустимого указателя, используемого в программе. Присвоение указателю целой константы 0 определяет его значение null.

Любой язык, в том числе и язык программирования, подчиняется ряду правил. Их принято разделять на правила, определяющие синтаксис языка, и правила, определяющие его семантику.

Синтаксис языка - совокупность правил, определяющих допустимые конструкции (слова, предложения) языка, его форму .

Семантика языка - совокупность правил, определяющих смысл синтаксически корректных конструкций языка, его содержание.

Языки программирования относятся к группе формальных языков, для которых в отличие от естественных языков однозначно определены синтаксис и семантика. Описание синтаксиса языка включает определение алфавита и правил построения различных конструкций языка из символов алфавита и более простых конструкций. Для этого обычно используют форму Бэкуса-Наура (БНФ) или синтаксические диаграммы . Описание конструкции в БНФ состоит из символов алфавита языка, названий более простых конструкций и двух специальных знаков:

· «::=» - читается как «может быть заменено на»,

· «|» - читается как «или».

При этом символы алфавита языка, которые часто называют терминальными символами или терминалами, записывают в неизменном виде. Названия конструкций языка (нетерминальные символы или нетерминалы), определяемых через некоторые другие символы, при записи заключают в угловые скобки («< », « >»).

Пример БНФ

Правила построения конструкции <Целое>, записанные в

БНФ, могут выглядеть следующим образом:

<Целое> ::= <3нак> <Целое без знака> | <Целое без знака>

<Целое без знака> ::= <Целое без знака> <Цифра> | <Цифра>

<Цифра> ::= 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9

<3нак> ::= + | -

Для отображения того, что конструкция <Целое без знака> может включать неограниченное количество цифр, использовано правило с левосторонней рекурсией. Многократное применение этого правила позволяет построить целое число с любым количеством цифр.

Синтаксические диаграммы отображают правила построения конструкций в более наглядной форме. На такой диаграмме символы алфавита изображают блоками в овальных рамках, названия конструкций – в прямоугольных, а правила построения конструкций - в виде линий со стрелками на концах. При этом, если линия входит в блок, то в описываемую конструкцию должен входить соответствующий символ. Разветвление линии означает, что при построении конструкции возможны варианты. На рис. 2.1 представлена синтаксическая диаграмма, иллюстрирующая первые два правила описания конструкции <Целое>. Из диаграммы видно, что целое число может быть записано со знаком или без и включать произвольное количество цифр.



Для описания синтаксических конструкций своего языка Н. Вирт использовал именно синтаксические диаграммы, поэтому в тех случаях, когда словесное описание синтаксиса конструкции длинно и нечетко, мы будем использовать синтаксические диаграммы.

Алфавит языка программирования Borland Pascal 7.0 включает:

1. строчные, прописные буквы латинского алфавита (a..z, A..Z) и знак подчеркивания (_), который также во многих случаях считается буквой (строчные и прописные буквы не различаются);

2. цифры (0...9);

3. специальные знаки, состоящие из одного и двух символов:

. ,+ - * / = : < > { } () ^ @ $ #<> <= >= := (* *)

4. служебные слова (эти сочетания считаются единым целым и их нельзя использовать в программе в другом качестве): (примеры)

Из символов алфавита в соответствии с правилами синтаксиса строят различные конструкции. Простейшей из них является конструкция <Идентификатор>.

Эта конструкция используется во многих более сложных конструкциях для обозначения имен программных объектов (полей данных, процедур, функций и т. п.).

В Borland Pascal идентификатор представляет собой последовательность букв латинского алфавита (включая символ подчеркивания) и цифр, которая обязательно начинается с буквы.

Синтаксическая диаграмма идентификатора приведена на рис. 2.2. Остальные конструкции будут рассмотрены в последующих разделах. Семантику языка программирования закладывают в его компилятор. Таким образом, синтаксически корректная программа, написанная на языке программирования, после преобразования ее в последовательность машинных команд обеспечит выполнение компьютером требуемых операций.

Структура программы

Программа на Borland Pascal состоит из трех частей: заголовка, раздела описаний и раздела операторов.

  • Заголовок программы не является обязательным, он состоит из служебного слова program и идентификатора - имени программы.
  • Раздел описаний содержит описания всех используемых программой ресурсов (полей данных, подпрограмм и т.д.).
  • Раздел операторов заключается в, так называемые, операторные скобки begin ...end и заканчивается точкой. Между операторными скобками записывают управляющие операторы программы, которые разделяют специальным знаком – точкой с запятой «;». Если точка с запятой стоит перед end , то считается, что после точки с запятой стоит «пустой» оператор.
  • В тексте программы возможны комментарии, которые помещают в фигурные скобки.

Пример программа, которая реализует алгоритм Евклида для определения наибольшего общего делителя двух натуральных чисел.

Program example; {заголовок программы}

{раздел описаний}

Uses crt;

Var a,b:integer; {объявление переменных}

{раздел операторов}

Write ("Введите два натуральных числа:"); {запрашиваем ввод данных}

Readln(a,b); {вводим значения}

while a<>b do {цикл-пока а<>b}

if a>b then a:=a-b {если a>b, тогда a:=a-b}

else b:=b-a; {иначе b:=b-a}

Writeln(‘Hauбoльшuй общий делитель равен ’,a); {выводим результат}

End. {конец программы}

Программа названа «example». Раздел описаний в данном случае включает только описание переменных (см. параграф 2.3). Раздел операторов содержит операторы ввода исходных данных, вычислений и вывода результатов. Начнем рассмотрение особенностей программирования на языке Borland Pascal с проблемы описания данных.


2. ПОНЯТИЕ ЯЗЫКА ПРОГРАММИРОВАНИЯ. ПОНЯТИЕ ЛЕКСИКИ, СИНТАКСИСА И СЕМАНТИКИ.

3.СПОСОБЫ ФОРМАЛЬНОГО ОПРЕДЕЛЕНИЯ СИНТАКСИСА ЯЗЫКА ПРОГРАММИРОВАНИЯ: МЕТАЯЗЫК, СИНТАКСИЧЕСКИЕ ДИАГРАММЫ.

Анализировать условие достижения конца потока (конца файла) и ошибки ввода-вывода;

Получать и устанавливать указатель текущей позиции в потоке;

Управлять буферизацией потока и размером буфера.

Все операции ввода-вывода реализованы с помощью функций, находящихся в

библиотеке языка Си. Чтобы использовать эти функции, необходимо включить в программу заголовочный файл stdio.h, который содержит прототипы функций ввода-вывода, определения констант, типов и структур, необходимых для работы функций.

Поток можно открыть в текстовом или двоичном режиме. В соответствии с этим различают файлы текстовые и двоичные.

При открытии файла в текстовом режиме прочитанная из потока последовательность символов преобразуется, если это необходимо из символьного представления во внутреннее представление. Например, если при форматном вводе

читается числовая информация, то происходит преобразование прочитанной последовательности символов в двоичное целое или число с плавающей точкой в соответствии со спецификацией формата; при форматном выводе числовой информации происходит преобразование из внутреннего представления числа в последовательность символов, изображающих число. Последовательность символов, хранящаяся в текстовом файле, может быть разбита на строки. При записи в текстовый поток символа новой строки ‘\n’ он заменяется последовательностью символов CR (“возврат каретки”) и LR (“перевод строки”). При

чтении из текстового файла последовательность символов CR и LR преобразуется в один символ новой строки ‘\n’.

Если в файле хранится не текстовая информация, а двоичная, то никакие преобразования не должны выполняться. Например, в файл записывается (а затем читается) числовая информация в своем внутреннем представлении. Такой файл надо открыть как двоичный.

Функции форматного обмена предназначены для ввода/вывода отдельных символов, строк, целых и вещественных чисел всех типов. При вводе данные помещаются в буфер, а затем побайтно или определенными порциями передаются программе пользователя. При выводе данных в файл они сначала накапливаются в буфере, а при заполнении буфера записываются в виде единого блока в файл за одно обращение

к нему. Таким образом, использование буфера позволяет сократить число обменов с файлом. Буфер выделяется программе по умолчанию при открытии файла.

Функция читает последовательность символов из входного потока, начиная с байта, на который показывает текущее положение указателя файла. Ввод прекращается, если встретился пробельный символ или прочитано количество

символов, указанных в спецификации преобразования. Прочитанная последовательность символов интерпретируется в соответствии с форматной строкой (форматная строка просматривается последовательно от первого символа к последнему) как символьное представление целого числа или вещественного числа или один символ или строка символов. Затем преобразуется во внутреннее представление и записывается в область памяти очередной переменной из списка аргументов (указатель текущей позиции файла при этом перемещается

на новую текущую позицию в соответствии с числом прочитанных байтов).

Этот процесс продолжается пока не исчерпана форматная строка или не достигнут конец файла или не произошла ошибка. В первом случае функция возвращает количество объектов, получивших значение при вводе, при достижении конца файла – возвращает константу EOF, в случае ошибки – значение –1.

Функция просматривает форматную строку слева направо все встреченные произвольные символы выводит в файл, при встрече спецификации преобразования вычисляет значение соответствующего ему выражения из списка аргументов, преобразует его из внутреннего представления в последовательность символов в соответствии со спецификацией и выводит в текущую позицию файла. Для каждого аргумента должна быть указана одна спецификация преобразования. Если аргументов меньше, чем спецификаций, то результат зависит

от реализации языка. Вывод заканчивается, когда исчерпана форматная строка или возникла ошибка. Функция возвращает число выведенных символов, а при ошибке отрицательное число.

В двоичном режиме в файл можно записать содержимое любой области памяти без преобразования из внутреннего представления. Таким образом, форма представления данных в памяти и в двоичном файле одинакова. Поэтому при чтении из двоичного файла преобразование во внутреннее представление не нужно. Для обмена с двоичным файлом используются функции fread и fwrite.

13. ПОНЯТИЕ ПРОГРАММЫ. СТРУКТУРА ПРОГРАММЫ.

Простая программа – это программа с управляющей структурой, обладающей следующими особенностями:

1) имеется только один вход и один выход,

2) через каждый узел программы проходит путь от входа к выходу структуры.

Логически программы можно разбить на 2 блока:

1. величины с которыми работаем

2. действия производимые над величинами (в соответствии с алгоритмом решения задачи).

Программа в си состоит из подпрограмм. Из них путем механического объединения формируется текст программы, но всегда существует основная подпрограмма. Синтаксис подпрограммы: 1. Заголовок void main ()

2. тело – {блок} – составной оператор, позволяющий задавать величины и действовать над ними – крупная единица действия. В блоке величина сначала должна быть определена и только потом использована.

Программа на языке Си состоит из одной или более функций. Одна из этих функций – главная, она имеет имя main. Операционная система передает управление в программу пользователя на функцию с этим именем и тем самым начинается выполнение программы. Функция main вызывает другие функции программы. Кроме функций программа может содержать

директивы препроцессору, указания компилятору, объявления и определения.

Директивы препроцессора используют для того, чтобы облегчить модификацию программы. Директива - это инструкция препроцессору языка Си. Препроцессор обрабатывает исходную программу перед ее компиляцией.

Текст программы на языке Си может быть разделен на несколько исходных файлов. Исходный файл – это текстовый файл, который содержит либо всю программу, либо ее часть. Исходный файл не обязательно должен содержать выполняемые операторы. Удобно размещать определения переменных в одном файле, а в других файлах использовать эти переменные

путем их объявления. Каждый исходный файл компилируется отдельно, а затем связывается с другими компоновщиком программ. Отдельные исходные файлы можно объединить в один исходный файл, компилируемый как единое целое, используя директиву препроцессора – include.

14. ЯЗЫКОВЫЕ СРЕДСТВА ВЫЧИСЛЕНИЙ НАД ДАННЫМИ: ВЫРАЖЕНИЕ, ОПЕРАТОР ПРИСВАИВАНИЯ. СИНТАКСИС И СИМАНТИКА ВЫРАЖЕНИЯ И ОПРЕТОРА ПРИСВАИВАНИЯ.

ВЫРАЖЕНИЕ – множество взаимосвязанных операций над переменными и константами и скобок «()», в котором результат одной операции является операндом другой.

Выражение задает правило вычисления нового значения. Выражение состоит из операций и операндов. Операции определяют действия выполняемые над операндами. Операндом выражения может быть константа, переменная, выражение. Выражение, входящее как операнд в другое выражение

может быть первичным выражением, таким как, например, вызов функции или выражением, заключенным в круглые скобки.

Результат вычисления значения выражения зависит от порядка выполнения операций и их приоритета. Для задания правильного порядка вычислений используются скобки, они повышают приоритет операции. Но для операций, обладающих свойством коммутативности, не гарантируют определенный порядок вычисления.

Оператор присваивания

В простейшем случае общий вид оператора: V = E;

Здесь V – имя переменной, а E – выражение. В операторе присваивания используется операция присваивания = .

Тип вычисленного значения выражения перед присваиванием преобразуется к типу переменной по правилам преобразования типов.

12. СОВМЕСТИМОСТЬ ТИПОВ. ПРЕОБРАЗОВАНИЕ ТИПОВ.

В выражениях в качестве операндов могут присутствовать переменные и константы разных типов (здесь и далее мы ограничимся пока только известными нам базовыми типами данных). Результат каждой операции также имеет свой определенный тип, который зависит от типов операндов. Если в бинарных операциях типы данных обоих операндов совпадают, то результат будет иметь тот же самый тип. Если нет, то транслятор должен включить в код программы неявные операции, которые преобразуют тип операндов, то есть выполнить ПРИВЕДЕНИЕ ТИПОВ. Преобразование типов может включать в себя следующие действия:

Увеличение или уменьшение разрядности машинного слова , то есть “усечение” или “растягивание” целой переменной;

Преобразование целой переменной в переменную с плавающей точкой и наоборот;

Преобразование знаковой формы представления целого в беззнаковую и наоборот.

В тех случаях, когда программиста не устраивает принятый порядок неявного преобразования типов, он может сам преобразовать результат к такому типу, какой ему необходим. Это можно сделать, в частности, путем присваивания результата дополнительной переменной, во время которого требуемое преобразование будет произведено. Но он может сделать то же самое внутри выражения "на лету" с помощью специальной операции. Она представляет собой имя типа, к которому осуществляется приведение, заключенное в круглые скобки и стоящее перед операндом. В качестве примера рассмотрим получение дробной части числа:

double x,d; // double x,d; int n;

d = x - (int)x; // n = x; d = x - d;

При выполнении операции, как правило, происходит преобразование типов ее операндов к общему типу. Преобразования по умолчанию осуществляются следующим образом:

1) все операнды типа float преобразуются к типу double;

2) если один операнд имеет тип long double, то второй операнд преобразуется к типу long double;

3) если один операнд имеет тип double, то второй операнд преобразуется к типу double;

4) если один операнд имеет тип unsigned long, то второй операнд преобразуется к типу unsigned long;

5) если один операнд имеет тип long, то второй операнд преобразуется к типу long;

6) если один операнд имеет тип unsigned int, то второй операнд преобразуется к типу unsigned int;

7) все операнды типа char преобразуются к типу int;

8) все операнды типа unsigned char преобразуются к типу unsigned int;

9) иначе оба операнда имеют тип int.

Тип значения выражения имеет тип результата последней выполняемой операции в этом выражении

15. ЯЗЫКОВЫЕ СРЕДСТВА УПРАВЛЕНИЯ ВЫЧИСЛЕНИЯМИ: ВЕТВЛЕНИЯ, ЦИКЛЫ (ПОНЯТИЕ, НАЗНАЧЕНИЕ, СТРУКТУРНАЯ СХЕМА, ВИДЫ).

Вычислительный процесс, в котором многократно повторяются вычисления по одним и тем же формулам, называется циклическим (или просто циклом). В основе реализации цикла лежит обобщенное представление (запись) многократно повторяющихся действий.

Таким образом, в самом общем виде структурная схема цикла содержит три части:

Действия по подготовке цикла к первому исполнению;

Действия, являющиеся основным содержанием данного вычислительного процесса – тело цикла;

Действия, отслеживающие повторение тела цикла – проверка условия продолжения или условия окончания повторений.

Блок-схема алгоритма вычисления значения полинома n–й степени для заданного значения x:
Для итерационных методов характерны стереотипные вычисления, связанные с переходом от одного приближения к следующему. Это позволяет записывать соответствующие этим методам алгоритмы в виде циклических, причем число повторений этих стереотипных вычислений (итераций) заранее, как правило, неизвестно и зависит от начального приближения и допустимой погрешности. Характерным условием окончания цикла является некоторое отношение, связывающее разность последовательных приближений и допустимую погрешность.

В данном параграфе изучены вопросы, относящиеся к понятийному аппарату, истории развития и выразительным возможностям синтаксического представления формальных теорий и языков программирования. В ходе изложения рассмотрены важнейшие научные исследования, относящиеся к эволюции подходов к математическому моделированию синтаксического представления формальных теорий и языков программирования. При этом особо отмечено то обстоятельство, что в случае функционального подхода к программированию синтаксис языков программирования естественным и интуитивно понятным образом согласуется с соответствующей математической формализацией.

Представлено неформальное введение в наиболее широко распространенную на сегодня математическую формализацию синтаксиса языка - БНФ. Параллельно с синтаксисом формальной теории (на примере лямбда-исчисления) излагается синтаксис языка программирования F#, ограниченный наиболее важными, основополагающими конструкциями. Существенное внимание уделено выявлению наиболее важных с точки зрения синтаксиса классов конструкций языка программирования F#, а также роли синтаксического анализа в процессе трансляции программы.

Неформально определим синтаксис (языка программирования или математической теории) как форму конструкций (программы или теории) и способов их комбинирования. Более точное определение синтаксиса будет сформулировано далее. Пока же кратко остановимся на наиболее значительных (с точки зрения целец этой книги) этапах эволюции теории и практики синтаксиса языков программирования.

В 1960-х гг. X. Барендрегтом (Hendrik Barendregt) был детально описан синтаксис лямбда-исчисления - математической формализации, поддерживающей языки функционального программирования. Примерно в то же время Дж. Бэкусом (John Backus) были созданы основы формализации синтаксиса языков программирования посредством специального математического языка. Позднее П. Науром (Peter Naur) этот язык (а с точки зрения целевого языка программирования - метаязык) был доработан, в результате чего возникла математическая нотация, известная и сегодня под названием «форм Бэкуса - Наура» (БНФ).

Заметим, что эта нотация была специально разработана с целью формализации синтаксиса языка программирования (в то время это был весьма популярный, прежде всего в математической среде, язык программирования ALGOL 60 с ясным, но довольно пространным синтаксисом). Формы Бэкуса - Наура и в современных условиях являются теоретически адекватным и практически применимым средством формализации синтаксиса языков программирования.

Определим понятие синтаксиса более строго. Под синтаксисом понимают раздел описания формального математического языка или языка программирования, исследующий вид, форму и структуру конструкций (без учета их значения или практической применимости).

Забегая вперед, заметим, что значение конструкций языка программирования описывается и исследуется семантикой (о ней речь пойдет в следующем параграфе), а вопросы и ценность практической применимости - прагматикой.

Основной задачей синтаксиса является определение формы и вида допустимых языковых конструкций. Эту задачу возможно решить путем перечисления описаний всех языковых конструкций. Одним из механизмов такого описания является уже упомянутая нотация БНФ.

Мы будем рассматривать параллельно БНФ-формализации синтаксиса лямбда-исчисления и языка программирования F#. В последнем случае ограничимся базовым набором конструкций языка, подчеркнув такие существенные возможности, как кортежи (tuples), а также так называемые let-выражения. Для формирования правильного понимания роли и места синтаксиса в исследовании языков программирования рассмотрим обобщенную схему трансляции исходного текста программы (написанной, например, на языке программирования F#) в машинный код. В ходе трансляции программы, прежде всего, выполняется так называемая процедура лексического анализа, которая включает в себя выделение в тексте программы элементарных конструкций языка, или, иначе, лексем (в частности, имен переменных или идентификаторов, специальных или ключевых слов, значений констант, переменных и др.). По завершении лексического анализа выполняется так называемая процедура синтаксического разбора текста программы, которая представляет собой проверку корректности синтаксиса текста, написанного на языке программирования. Эта процедура, возможно, включает выполнение проверки корректности типизации в той или иной форме.

Наконец, в случае, если все конструкции языка, присутствующие в тексте программы, являются синтаксически корректными, а также не выявлено несоответствий типов, запрещенных с точки зрения анализатора корректности типизации, производится преобразование текста программы в промежуточный код (P-код, ассемблер, код той или иной абстрактной машины) или собственно машинный код. Рассмотрим синтаксис языка программирования F# в сравнении с синтаксисом лямбда-исчисления. Для большей наглядности и сопоставимости формализаций синтаксиса обоих языков (языка формальной математической теории и языка программирования) будем использовать единую нотацию, а именно БНФ.

Прежде всего, необходимо договориться об обозначениях. Рассмотрим традиционные обозначения БНФ и поясним смысл каждого из них.

Фактически БНФ представляют собой определения одних понятий через другие. При этом понятия заключаются в угловые скобки и используется ряд специализированных символов и соглашений, суть которых поясняется далее. Определяющий символ «::=» разделяет определяемую конструкцию от составляющих ее ранее определенных базовых конструкций. Определяемая конструкция записывается слева от «::=» в угловых скобках «». Альтернативы (возможные варианты) конструкций перечисляются по вертикали. Цитирование (подобно тому, как мы цитировали специальные символы, заключая их в двойные кавычки) не имеет обозначения.

Проиллюстрируем формализацию синтаксиса формальной системы посредством нотации БНФ, рассмотрев в качестве примера знакомое нам по предыдущим главам лямбда-исчисление:

() | к .

Поясним смысл приведенных обозначений.

В данном примере определяется понятие выражения, синтаксическое представление которого может быть выражено в виде одной из следующих альтернатив:

  • 1) константы;
  • 2) переменной;
  • 3) двух выражений, заключенных в круглые скобки, г.е. операции аппликации лямбда-выражений;
  • 4) символа к, за которым следует переменная, точка и выражение, т.е. операции абстракции лямбда-выражений.

Оказывается, что синтаксис языка программирования F# имеет ряд очевидных аналогий с синтаксисом лямбда-исчисления. Эти аналогии являются неизбежными в силу функциональной природы рассматриваемого языка программирования.

Для иллюстрации перечисленных выше тезисов рассмотрим важнейшие синтаксические категории языка программирования F#. Под выражением будем понимать обозначение конструкции языка, которой может быть присвоено значение (константы, переменной, функции и т.д.). Описанием будем в дальнейшем называть запись, связывающую выражение языка программирования с именем, обозначающим его в программе (идентификатором). Под термином «зарезервированное» (или, иначе, «служебное») слово будем иметь в виду конструкцию языка, однозначно интерпретируемую в качестве инструкции языка программирования (например, «if», «then», «let»). Напомним, что в данной нотации цитирование производится без кавычек или других символов-ограничителей. Комментарием назовем произвольный поясняющий текст к программе, который, согласно синтаксису языка F# положено заключать в ограничители вида «(*» и «*)», а «//» - комментарий до конца строки.

Продолжим обсуждение синтаксических категорий языка программирования F#. В частности, рассмотрим структуру основных синтаксически допустимых типов выражений языка. Приведем соответствующую формализацию в терминах БНФ:

Как видно из БНФ-формализации, синтаксически корректным выражением в языке программирования F# считается:

  • 1) идентификатор (т.е. имя переменной, константы, функции или тина, обычно представляемой в виде алфавитно-цифровой последовательности ограниченной длины и начинающейся с буквенного символа);
  • 2) литерал (литералы будут рассмотрены далее);
  • 3) последовательность из двух выражений;
  • 4) последовательность из двух выражений, соединенных идентификатором.

В дополнение к перечисленным на предыдущем слайде альтернативам синтаксически допустимыми выражениями языка программирования F#, как следует из БНФ

if then else | (...) |

также являются:

  • 1) три выражения, соединенные зарезервированными словами if («если»), then («тогда») и else («в противном случае»), называемые условным выражением и фактически представляющие собой предикатную функцию, которая реализует выполнение второго выражения в случае истинности первого и выполнение третьего в противном случае;
  • 2) конечную последовательность выражений, заключенную в круглые скобки (или так называемый кортеж) и применяемую для структуризации данных;
  • 3) описание и выражение, соединенные зарезервированным словом in («в»), которые определяют операцию подстановки описания в выражение с учетом всевозможных вхождений в него указанного фрагмента описания;
  • 4) выражение, заключенное в круглые скобки (как мы уже знаем, в лямбда-исчислении и комбинаторной логике эту операцию можно производить без ограничений) и используемое для явного указания приоритета операции.

Перейдем к рассмотрению структуры синтаксически допустимых видов описаний объектов языка. Приведем соответствующую формализацию в терминах БПФ:

let = | let «^последовательность неременных> =

Синтаксически допустимыми описаниями языка программирования F#, как следует из представленной БНФ, являются:

  • 1) идентификатор и выражение, соединенные зарезервированными словами let и =, которые обозначают связывание идентификатора (переменной, константы или другого синтаксически допустимого объекта языка программирования) с тем или иным выражением;
  • 2) идентификатор, последовательность переменных и выражение, соединенные зарезервированными словами let и =, которые обозначают связывание функции (обозначенной первым идентификатором) с выражением, которое определяет порядок вычисления значения.

Перейдем к рассмотрению структуры синтаксически допустимых видов описаний типов объектов языка. Приведем соответствующую формализацию в терминах БНФ:

Sbytel intl6 | uint 16| uint32| int64| uint64|

Как следует из представленной БНФ, синтаксически допустимыми типами языка программирования F# являются:

  • 1) целочисленные величины;
  • 2) числа с «плавающей» запятой;
  • 3) логические значения;
  • 4) отсутствие значения;
  • 5) кортежи - упорядоченные п -ки элементов определенных типов;
  • 6) функции - упорядоченные и-ки элементов определенных типов, соединенных зарезервированными символами -к

Рассмотрим следующий пример, иллюстрирующий приписывание типов в языке F#. Константа типа кортеж вида (0, false, 1, true) имеет тип (int*bool*int*bool). Заметим, что варианты типов (1)-(4) являются элементарными, тогда как (5) и (6) представляют собой производные типы с явно указанной (или выводимой) структурой, откуда и происходит название «структурированный тип».

В данном параграфе мы уже упоминали такую синтаксическую категорию, как литералы, или, как следует из их названия, базовые типы F#, состоящие из определенных последовательностей символов.

Рассмотрим подробнее синтаксические особенности основных видов литералов. Приведем соответствующую формализацию в терминах БНФ:

Как следует из представленной БНФ, синтаксически допустимыми типами литералов в языке программирования F# являются следующие:

  • 1) целочисленные литералы, имеющие типы int, sbyte, byte, inti б, uintlG, int32, uint, uint32, int64, uint64, bigint;
  • 2) строковые литералы, имеющие типы Char, byte, byte, string;
  • 3) вещественные литералы, имеющие типы decimal, float; double, single, float32.

Заметим, что значение (т.е. семантика) литералов в полной мере определяется их лексическим (а значит, и синтаксическим) представлением.

Перейдем к рассмотрению фундаментальной с точки зрения формализации языков функционального программирования - лямбда-исчисления - операции аппликации функций. Приведем соответствующую формализацию в терминах БНФ:

Как следует из представленной БНФ, синтаксически допустимая конструкция языка программирования F#, описывающая операцию аппликации, весьма точно соответствует описанию операции аппликации выражений в лямбда-исчислении.

Проиллюстрируем аппликацию функции к аргументу в языке программирования F# следующим примером. Рассмотрим функцию succ, которая задается определением

и осуществляет прибавление единицы к (целочисленному) аргументу. Для рассматриваемой функции succ синтаксически корректная аппликация может иметь вид succ 2 и вычисляться в ходе выполнения программы в значение 3.

Перейдем к рассмотрению синтаксически допустимых конструкций языка программирования F#, называемых условными выражениями. Приведем соответствующую формализацию в терминах БНФ:

Как видно из БНФ-формализации, синтаксически корректное условное выражение состоит из трех подвыражений, соединенных зарезервированными словами if, then и else, уже упоминавшихся в данном параграфе.

Добавим к ранее сказанному ряд необходимых замечаний. Во-первых, результатом вычисления первого выражения должно быть логическое значение. Во-вторых, типы второго и третьего выражений должны совпадать. Наконец, часть условного выражения, начинающаяся с else, не является обязательной.

Заметим также, что функции сравнения встроены в язык F# и имеют вид «=» (равно), «» (больше), «=» (больше или равно), «» (не равно). Результатом вычисления любой из этих функций является логическое значение.

Проиллюстрируем синтаксис условного выражения следующим примером на языке F#:

if п>=10 then 1 else О

Заметим, что приведенное выражение может использоваться для анализа параметра функции, вычисляющей, например, количество разрядов десятичного числа.

Рассмотрим структуру синтаксически допустимых конструкций, известных под названием let-выражений. Приведем соответствующую формализацию в терминах БНФ:

Как видно из БНФ-формализации, синтаксически корректное let- выражение состоит из описания и выражения, соединенных зарезервированными словами let и in.

Как можно заключить из синтаксиса, let-выражение представляет собой не что иное, как подстановку значения в лямбда-абстракцию. Let- выражения используются в языке программирования F# для связывания значений и оптимизации вычислений, в частности, обеспечивая однократное вычисление повторяющихся фрагментов программы.

Проиллюстрируем синтаксис let-выражений примерами из языка программирования F#. Рассмотрим следующие let-выражения:

let k=9876*8765 in (k-1, k, k+1)

Как можно видеть, первое выражение представляет собой не что иное, как подстановку, которую можно формализовать лямбда-термом вида

(лх. х+1) 2. Второе выражение позволяет свести многократное вычисление громоздкой операции (умножения) к однократному.

В данном параграфе неоднократно упоминалось понятие кортежа. Рассмотрим подробнее этот весьма важный (особенно при реализации функций) вид синтаксических конструкций языка программирования F#. Приведем формализацию синтаксически допустимого представления кортежа в терминах БНФ:

Исходя из вида БНФ-формализации, уточним понятие кортежа. Кортежем называется группа, состоящая, по меньшей мере, из двух выражений (возможно, имеющих разные типы), объединенная в обособленную совокупность. Заметим, что кортежи используются в F# для реализации многоместных (имеющих более одного аргумента) функций, а более широко в теории и практике программирования - в реляционных базах данных (в которых данные представляются в виде таблиц), поскольку кортеж представляет собой, по сути, строку такой таблицы.

Проиллюстрируем синтаксис конструкции кортежа примерами из языка программирования F#:

  • (1, 2*1, 2*2*1)
  • (1, true, 0, false)

Заметим, что в случае единственного выражения кортеж вырождается в выражение в скобках. Естественно, что любое Р#-выражение можно заключить в скобки, например для явного указания приоритета аппликаций, арифметических и логических операций.

Полученный в данном параграфе опыт рассмотрения основных видов синтаксических конструкций языка программирования F# позволяет перейти к формальному синтаксису таких фундаментальных языковых конструкций, как описания переменных и функций.

Рассмотрим формализации синтаксически корректных описаний переменных и функций в терминах БНФ:

::= fun -> ::= let =

Первое определение представляет собой описание переменной, остальные - описание функции. Служебное слово гее служит признаком рекурсивной функции.

Проиллюстрируем формальные описания переменных и функций следующими содержательными примерами:

let гес fact n=if n -> x*x+y*y;

Первый из приведенных примеров представляет собой описание (целочисленной) переменной х, второй - рекурсивной (самонрименимой) функции fact вычисления факториала (произведения натуральных чисел от 1 до п), а третий - двухместной функции f, вычисляющей сумму квадратов аргументов.

Итак, мы рассмотрели основные виды синтаксических конструкций языка программирования F#. По итогам обсуждения можно сделать следующие выводы:

  • синтаксис языков функционального программирования достаточно близок к синтаксису формальных теорий, на которых они основаны (в частности, это справедливо для лямбда-исчисления и языка F#);
  • БНФ являются актуальной и адекватной формализацией синтаксиса языка;
  • язык программирования F#, в отличие от ранних языков функционального программирования, имеет ряд расширенных конструкций (кортежи, let-выражения и др.).

Контрольные вопросы

Вариант 1 : в чем состоит основное назначение синтаксиса?

  • а) формализация вида и формы конструкций языка (+);
  • б) формализация значения конструкций языка;
  • в) формализация абстрактной машины для реализации языка.

Вариант 2: какова последовательность синтаксического разбора программы?

  • а) лексический, синтаксический, семантический анализ (+);
  • б) синтаксический, лексический, семантический анализ;
  • в) семантический, лексический, синтаксический анализ.

Вариант 3: что из перечисленного является формализацией синтаксиса?

  • а) форма Бэкуса - Наура (+);
  • б) лямбда-исчисление;
  • в) комбинаторная логика.

Вариант 1 : какой из объектов не имеет обозначения в формах Бэкуса - Наура?

  • а) определяемая конструкция;
  • б) альтернативные конструкции;
  • в) цитирование (+).

Вариант 2: что понимается под синтаксисом?

  • а) совокупность элементов языка;
  • б) описание формы языка (+);
  • в) модель реализации языка.

Вариант 3: какие объекты может содержать выражение языка F#?

  • а) идентификатор, литерал, выражение (+);
  • б) функция, идентификатор, литерал;
  • в) условие, литерал, выражение.

Вариант 1: каков наиболее полный перечень синтаксических категорий языка F#?

  • а) выражение, описание, служебное слово, комментарий (+);
  • б) константа, функция, переменная, значение;
  • в) идентификатор, константа, функция, переменная.

Вариант 2: какие ключевые слова используются для описания в языке F#?

  • а) val, fun, let;
  • б) val, if, local;
  • в) let, fun (+).

Вариант 3: на какие категории подразделяются типы F#?

  • а) структурированные и неструктурированные (+);
  • б) литералы и функции;
  • в) переменные и константы.