Жаловался недавно на то, как трудно достать данные в России: см. Культура BigData HR и Где брать цифры по России (хронология одного проекта).
Оказалось, что я был не прав и в этом не стыдно признаваться. Но по порядку.
Я занимаюсь на курсе Data Analysis, вчера на лекции прослушал информацию об источниках данных. Существует так называемый проект открытых данных - см Вики - который родился вследствие инициатив правительств (я так понимаю, США и Англии в первую очередь) и который подразумевает доступность и открытость данных для любого заинтересованного лица.
Данные причем хранятся на сайте в форматах XML, JSON, CSV - их можно сразу загружать, например, в программу R и анализировать.
Вот сайт открытых данных в США
Имена детей - вот с этой страницы можно, например, скачать инфо The data (name, year of birth, sex and number) are from a 100 percent sample of Social Security card applications after 1879.
На том же сайте я узнал о проекте открытых данных в России
Открытые данные в России - данных конечно не так много, как в США, но проект аквтино развивается. И данные можно скачать даже не программисту в формате CSV / XLS - т.е. excel.
Открытое правительство (помните идею Медведева?) - связанные проект, на котором находится информация с правительственными данными.
Портал открытых данных правительства Москвы - это даже вполне себе пользовательский сайт, где можно брать конкретную информацию, но также скачивать в формате excel таблиц.
Думаю, что со временем я буду показывать результаты аналитики данных, которые я накопал на этих сайтах - как например И все-таки: какой город самый HR-ый в России? - хотя это конечно достаточно слабенький пример, но все же начало)
И надеюсь, не очень разочарую читателей блога тем, что полез в такие дебри)
Комментариев нет:
Отправить комментарий