Obsessive robot (bluxer) wrote,
Obsessive robot
bluxer

Categories:
АБЗАЦ

Абза́ц — отрезок письменной речи, состоящий из одного или нескольких предложений.
обозначая своего рода «цезуру», является единицей членения текста, промежуточной между фразой и главой, и служит для группировки однородных единиц изложения, исчерпывая один из его моментов (тематический, сюжетный и т. д.).
Выделение фразы в особый абзац усиливает падающий на неё смысловой акцент. Абзац способствует правильному и быстрому восприятию текста.
Абзац — малоисследованный компонент литературной формы,


Золотые слова.
Абзац - это лучший элемент текста, и я жалею, что раньше его недооценивал.

В чем сила абзаца?
В том, что это одновременно и смысловой элемент, и технический. Он содержит законченную идею и при этом выделен в тексте таким образом, что ни с чем другим не спутаешь. На бумаге это отступ (до и после), а в машинном виде это особые знаки.
Поэтому абзац одинаково хорошо понятен и человеку, и компьютеру.

Мне по роду деятельности регулярно приходится заниматься текстовым поиском в системе "Консультант плюс", а также в файлах ms word и в текстовых pdf-ах.
Много лет я мечтаю найти волшебный способ, который будет быстро находить то, что требуется, и одновременно отсеивать лишнее.

Раньше мне казалось, что залог успеха в правильном выборе диапазона слов, в котором осуществляется поиск. Да, это важно, но там много неясного.
Диапазон в отличие от абзаца - это сугубо технический феномен, который не несет смысловой нагрузки. Точнее, можно сказать, что это "эпифеномен" :)
Я не могу подступиться к нему даже с позиций статистики.

Другое дело абзац.
Абзац намеренно и осознанно создается автором текста, который (пока еще) чаще всего "человек разумный". Поэтому абзац - это законченная мысль (в школе учили, что предложение - это законченная мысль, но одно другому не мешает).

И было бы слишком расточительно не пользоваться результатами интеллектуальных усилий тех, кто уже их когда-то вложил в текст!
Поэтому теперь я склоняюсь к тому, чтобы искать ключевые слова внутри абзаца, а не внутри диапазона.

Обычный поиск по содержанию текстового файла ищет по всему файлу.
Поэтому мне в какой-то момент пришлось самому себе написать приспособу макрос, который ищет слова внутри абзаца (когда-нибудь напишу и для диапазона слов, но пока не очень надо :)

И тут обнаружилась интересная проблема.
Допустим вам надо найти заданный набор слов внутри куска текста.
Юзер не задумывается, как это реализуется технически.
А если задуматься, то получается, что слова приходится искать по одному: если нашлось первое, то есть смысл искать второе, если нашлось второе, то появляется смысл искать третье и так далее.
Если какое-то слово в цепочке не нашлось, то дальше искать в этом диапазоне не надо, и программа переходит к следующему диапазону.
Исходя из этого выгоднее начинать поиск с самого редкого слова, вероятность найти которое в тексте наименьшая. Тогда поиск пойдет быстрее.
Subscribe

  • (no subject)

    Одним из признаков того, что рукотворный предмет представляет собой произведение искусства, является желание (той или иной степени остроты) увидеть…

  • (no subject)

    Один мой бывший начальник увлекался изучением Ветхого завета и однажды произнес задумчиво: "люди такое написать не могли".

  • (no subject)

    Актёрских способностей никогда не проявлял, но в последние годы достаточно свободно могу заставить себя расплакаться, как по команде. Стоит чуть-чуть…

  • Post a new comment

    Error

    default userpic
    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 23 comments

  • (no subject)

    Одним из признаков того, что рукотворный предмет представляет собой произведение искусства, является желание (той или иной степени остроты) увидеть…

  • (no subject)

    Один мой бывший начальник увлекался изучением Ветхого завета и однажды произнес задумчиво: "люди такое написать не могли".

  • (no subject)

    Актёрских способностей никогда не проявлял, но в последние годы достаточно свободно могу заставить себя расплакаться, как по команде. Стоит чуть-чуть…