Хочу сделать такую тему: 1. Скачать весь твиттер или большую его част

metachan.ru
жалоба / abuse: admin@metachan.ru
Источник / Source: //dobrochan.com/s/res/46835.xhtml
  Статус треда: В АРХИВЕ  

достопримечательностях, вариант, дело, общем, дохуя, доброчан, дури, стартапа, ололо, корпораций, топовых, железе, обработать, рилтайме, твиттора


#46835

picture
dYJK.jpg Jpg,107.89KB,915×803

Хочу сделать такую тему:

1. Скачать весь твиттер или большую его часть.
2. Загнать всё это дело в Elasticsearch.
3. Прогнать это всё дело через классификаторы, анализаторы кейвордов, сентимента и т. д.
4. Предоставлять API для выборок любой сложности.

Зачем?

Например, я хочу выбрать твиты, в которых иностранцы, будучи в путешествии по Скотоублюдии положительно отзываются о достопримечательностях СПБ и узнать, о каких конкретно достопримечательностях они пишут, а так же, какие категории достопримечательностей их интересуют. Вот для этого.

Кому?

Маркетологам, аналитикам, исследователям.

----

Так вот, как думаешь, имеет шансы взлететь? Есть ли аналогичные решения?


#46837

>>46835
Обычный стриминг апи очень лимитирован. Есть вариант присосаться к сырому потоку, но он стоит очень дохуя, и чтобы его обработать в рилтайме надо тоже очень дохуя дури в железе. В общем, это для топовых корпораций вариант, а не для ололо-стартапа.
О скачивании всего твиттора речи вообще не идет, там какие-то сотни миллионов в день и никто тебе не даст в них копаться.


#46841

>>46837
Ну, в общем, посидели с пацанами и пришли к тому же мнению. А ещё это вроде как нарушает TOS, так что ну его в пень, даже если бы были (ну, чисто гипотетически) ресурсы.


#49107

>>46837
Можно just for fun использовать spark, он работает распределенно. Есть spark-streaming.



#49131

Оооо^H^H^H^H