IV Разработать библиотеку морфологического анализа

Задания, альтернативные лабораторным работам, для групп 5-78-5,6

I Загрузка и парсинг словарей из Интернета

Парсинг морфемно-орфографического словаря

http://slovari.yandex.ru/~книги/Морфемно-орфографический%20словарь

Задачи:

1) выгрузить весь словарь;

2) сохранить в таблицу: id, слово, состав слова, комментарий, происхождение (ссылка на слово, от которого происходит текущее). Именование полей по усмотрению создателя БД. Состав слова - это формула вида Про/стил/а!/ть;

3) сохранить ударение в слове, заменив символ ударения восклицательным знаком.

Особые случаи:

1) Простилать(ся) Про/стил/а́/ть(ся). Необходимо разбить на два слова: простилать и простилаться.

2) Простлать Про/стл/а́/ть и про/стел/и́/ть, про/стел/ю́, про/сте́л/ет. Разбить на 4 слова (4 записи). Если состав слова отличается от слова, то слово создать по составу. Если это слово уже присутствует в базе, то добавлять не нужно.

3) Простой 1 Прост/о́й¹ (не сложный). Простой 2 Про/сто́й/² (вынужденное бездействие). Убрать цифры. То, что указано в скобках, отнести к комментариям.

4) Простойный Про/сто́й/н/ый (от про/сто́й/²). То, что в скобках, отнести в колонку происхождение, указав id слова, от которого происходит текущее.

5) Простирывать(ся) Про/сти́р/ыва/ть(ся) [от про/стир/а́/ть¹]. По аналогии с 4-м случаем.

6) Простодушие Прост/о/ду́ш/и/е [й/э]. То, что в квадратных скобках, не учитывать - удалить.

7) Простереть(ся) Простер/е́/ть(ся), простр/ёт(ся) прош. простёр(ся). Разбить на пары, учитывая, что е и ё разные буквы.

II Разработать и заполнить базу данных имен собственных

Атрибуты сущностей указанных ниже БД подсмотреть в Wikipedia. БД должны отражать максимум сведений об объектах, включая изображения (флаги, гербы, схемы, картинки животных, например) и аудио (гимны, например).

БД имен собственных политической карты мира.

Должны быть предусмотрены сущности: материк, страна, столица страны, территориальное деление (субъекты), столица субъекта.

Дальше к ним добавятся экономические показатели.

БД географических водных объектов.

Сущности: океаны, моря, проливы, заливы, реки, озера, водопады и прочие водоемы.

БД названий городов и населенных пунктов.

1) Россия;

2) Европа;

3) Северная америка;

4) Южная америка;

5) Весь восток, исключая Африку и Россию;

6) Африка;

7) Австралия и все оставшиеся островные государства.

5. БД оронимов (названия поднятых форм рельефа (гор, хребтов, возвышенностей, вершин, холмов, вулканов)) и прочих названий географических объектов (плато, равнины, пустыни и т.д.).

БД учебных заведений России.

БД российских литературных произведений и их авторов.

БД автомобилей и их марок.

БД Животный мир (фауна).

БД Растения (флора).

БД лекарств и лекарственных препаратов.

БД торговых марок (Российских и мировых).

БД ... можно предложить свои варианты.

III По указанным в таблице правилам разработать программу для склонения имен собственных личных (имя и фамилия)

Фрагмент таблицы правил склонения:

Соответственно будет база данных имен собственных личных.

IV Разработать библиотеку морфологического анализа

По аналогии с http://macrocosm.narod.ru/lingvo.html разработать БД и программу морфологического анализа на основе морфологического словаря Зализняка. Основное отличие от библиотеки MCR.dll будет заключаться в возможности пополнения БД.

В качестве аналога можно также взять phpMorphy http://phpmorphy.sourceforge.net/dokuwiki/

!Все структуры баз данных (сущности, их атрибуты, связи) должны быть проработаны со мной!


3428239148092405.html
3428277976863359.html
    PR.RU™