Опять запели тролли-голосуй не голосуй...все равно получишь....пупкена, прячьтесь в подпольях-всех пересажают....Кончается у деморежима пробный срок....Uninstall Tool
И что плохого в государственном гугле для чинуш? Инфу о мне давно собирает куча ресурсов. Если бы был параноиком использовал бы тор и секурные браузеры. Пусть мониторят, что хотят. Один хрен по настоящему современное сми (а такими скоро станут все) вообще не закрыть, просто виртуальные сервера перенесут за бугор в Зимбабве и все, а журналистов поди лови по России матушке, они скоро тоже в своих сми под никами будут публиковаться с того же тора. Так что на любой меч всегда найдется щит, так было и так будет.
> И что плохого в государственном гугле для чинуш?
Непосредственно в госнаблюдении за информационными потоками нет ничего плохого. В "цивилизованных" странах для этого есть специализированные подразделения, оснащение и методы. Погуглите на тему "бундестрояна" или "Патриотического акта". Просто россиянская либерастня получает деньги за "опускание" правительства конкретной страны. Потому и будет исходить подобными статейками.
> Даже притом, что подробности системы не совсем очевидны, специалисты единогласно оценивают заявленную "ДатаЦентром" стоимость работ как заниженную — с учетом обозначенных задач.
Работал в хостинг-компании, делал для ФСБшников поисковик по размещенным у нас сайтам. На тему всякого детского порно, наркотиков и терроризма. Взял mnogosearch, поставил, сделал автоматом обновляемый список сайтов для него. Сделал минималистичный веб-интерфейс с необходимой спецификой. На всё ушло часов 10 работы. Где мои 4.6 миллиона рублей?! :)
Пополняемая до 5 миллионов база слов и выражений — это вообще что за бред? Я понимаю еще 5000 ключевых слов и 50000 выражений. Но даже такую базу надо очень-очень сильно постараться, чтобы составить. У меня например в техзадании был список слов, помещающийся в 2 колонки на листочке A4.
Если вопрос в поиске ключевых слов по строго заданному списку сайтов (а в статье задача прозвучала именно так) — да, я не понимаю. Поскольку даже при реализации с нуля единственной технической сложностью является масштабируемость. Задача прекрасно распараллеливается, решается исключительно хэш-таблицами без всяких реляционных БД. Собственно, mnogosearch и использует СУБД как набор хэш-таблиц.
Даже пресловутый mnogosearch, под конкретную задачу совсем не оптимизированный, окучивал несколько стоек серверов с сайтами на счет раз. При этом под задачу даже не было толком выделено полноценной машины: на ней и другие процессы крутились (правда мало). И уж поверьте, в этот объем поместятся все "сайты, зарегистрированных в качестве СМИ".
А учитывая, что тут нужен мониторинг а не поисковик, сохранение страниц в локальную базу не требуется. Равно как и индекс слов. Что позволяет снизить объем базы на порядки. Надо хранить только хэшик адреса и когда последний раз его проверяли. Элементарная таблица ключ-значение, при этом практически не подверженная фрагментации за счет константной длины значений.
Если вы про распил денег, то в обсуждении этого не вижу никакого смысла.
Я про техническую часть. В вашей озвучке отсутствует собственно мониторинг. А также семантика, оптимизация на большое число сайтов, учёт затрат на пусконаладку, передачу в продакшн и куча другого. То, что можете сваять "на коленке" вы — и обслуживать сможете только вы. Понимаете?
Кстати, СМИ сейчас считается практически любой сайт, доступный из интернета, если обновления на нём происходят "регулярно".
Комментарии
Не переношу сайты, которые пестрят шокирующими новостями, и без них своего хватает.
— А это четвёртый насос господина ПЖ.
— Я очень люблю ПЖ!
— А я его ещё больше ку!
Как-то так...
Непосредственно в госнаблюдении за информационными потоками нет ничего плохого. В "цивилизованных" странах для этого есть специализированные подразделения, оснащение и методы. Погуглите на тему "бундестрояна" или "Патриотического акта". Просто россиянская либерастня получает деньги за "опускание" правительства конкретной страны. Потому и будет исходить подобными статейками.
Работал в хостинг-компании, делал для ФСБшников поисковик по размещенным у нас сайтам. На тему всякого детского порно, наркотиков и терроризма. Взял mnogosearch, поставил, сделал автоматом обновляемый список сайтов для него. Сделал минималистичный веб-интерфейс с необходимой спецификой. На всё ушло часов 10 работы. Где мои 4.6 миллиона рублей?! :)
Пополняемая до 5 миллионов база слов и выражений — это вообще что за бред? Я понимаю еще 5000 ключевых слов и 50000 выражений. Но даже такую базу надо очень-очень сильно постараться, чтобы составить. У меня например в техзадании был список слов, помещающийся в 2 колонки на листочке A4.
Даже пресловутый mnogosearch, под конкретную задачу совсем не оптимизированный, окучивал несколько стоек серверов с сайтами на счет раз. При этом под задачу даже не было толком выделено полноценной машины: на ней и другие процессы крутились (правда мало). И уж поверьте, в этот объем поместятся все "сайты, зарегистрированных в качестве СМИ".
А учитывая, что тут нужен мониторинг а не поисковик, сохранение страниц в локальную базу не требуется. Равно как и индекс слов. Что позволяет снизить объем базы на порядки. Надо хранить только хэшик адреса и когда последний раз его проверяли. Элементарная таблица ключ-значение, при этом практически не подверженная фрагментации за счет константной длины значений.
Если вы про распил денег, то в обсуждении этого не вижу никакого смысла.
Кстати, СМИ сейчас считается практически любой сайт, доступный из интернета, если обновления на нём происходят "регулярно".