Primer reunión del LABDAC

Día: 07/06/2017

Participantes: Muchos! Fuimos más o menos 40 personas.

¿Qué es lo que se pretende hacer? ¿Qué es investigar?

Hay distintos grados de participacion: En la medida de ser util para un proyecto, cualquier tipo de colaboracion es bienvenida.

Queremos tener un laboratorio de investigacion de Ciencia de Datos, donde se realice e investigue:

Analisis de datos
Machine Learning
LSH
TDA avanzados
Reinforcement Learning
Redes sociales
Etc.

¿Cuál es el objetivo del trabajo?

La idea es producir papers, que son el resultado de todo proyecto de investigacion. Sirven para reflejar los resultados, analisis, conclusiones, etc de las investigaciones.

De forma general, en los proyectos de investigación se realizan experimentos de distintas cosas, en algunos casos particulares estas pruebas conducen a algunos “descubrimientos” más interesantes y que no fueron lo suficientemente explorados.

En algunos proyectos se pueden armar pruebas de conceptos de algoritmos nuevos o incluso bibliotecas.

¿Cómo avanza la ciencia? Muchas veces, leyendo y probando se pueden encontrar cosas que estén “mal” (pueden ser casos no considerados, generalizaciones mal fundamentadas a partir de un solo resultado, entre otros). Estas fallas pueden replicarse y reproducirse en otros papers. Incluso, puede ocurrir que se encuentren en nuestros trabajos. Sin embargo, a partir de las correcciones que se van realizando también va avanzando la ciencia. No hay que dar por verdad todo lo que está escrito.

Financiación

Por ahora, el laboratorio no cuenta con ningún tipo de financiación. Esto significa una limitación en cuanto a recursos, por más mínimos que sean.

¿Cómo funciona un proyecto de investigación?

Nacimiento de la idea Los proyectos pueden surgir a partir de una idea, a raiz de la cual puede ser que finalmente se logre el objetivo planteado o no. También pueden nacer de otros trabajos de investigación, a partir de los cuales se pueden realizar trabajos derivados: implementar un algoritmo, realizar una biblioteca o buscar aplicaciones. Incluso, es posible que aparezcan como consecuencia de necesidades laborales.

Investigación (“probar cosas”) Gran parte de la investigacion es probar cosas. No hay que tener miedo a probar!

Publicación Luego de escribir un paper, le sigue la publicación. A la hora de enviar un paper para ser publicado éste puede ser aceptado o rechazado. Es común que se rechacen los paperes (muchas veces el porcentaje de papers aceptados es bajo), no hay que frustrarse. Hay casos en los que al rechazarse un trabajo, el autor decide publicarlo por su cuenta de todas formas (arXiv).

Despues de la publicación El tener publicaciones realizadas sirve como antecedente. En el caso de carreras cientificas, las maestrías y doctorados requieren de publicaciones. Incluso, a nivel internacional, existen empresas que tienen como requisitos para puestos en I+D haber tenido trabajos publicados. Esta tendencia se está trasladando al ambito local.

¿Qué aporta el marco del laboratorio?

El principal valor que se obtiene a partir de una laboratorio es la colaboración entre los integrantes, sumar esfuerzos y recursos. De esta forma, colaborando, es menos probable que los proyectos se traben. No es necesario que todos hagan todo, muchos son buenos o tienen más experiencia en algunos campos, por ejemplo programando en algunos lenguajes en particular, analizando datos, escribiendo papers, etc.

Además se busca que se establezcan relaciones con otros laboratorios de la facultad, e incluso con otras facultades.

En un futuro, se espera que el laboratorio o el departamento cuente con recursos (como podrían ser computadoras más potentes) que estén a disposición de los integrantes. También se podría “conseguir” que algunas empresas patrocinen proyectos de investigación, proveyendo al laboratorio de algunos recursos.

El laboratorio también puede servir de marco para la realización de tesis y trabajos profesionales – el requisito es que los tesistas se comprometan a publicar un articulo. Si bien puede ser tedioso en el momento, la publicación de una investigación termina siendo enriquecedora.

Es necesario tener en cuenta que dejar un proyecto puede afectar a todo el grupo de investigación, por lo que es importante tener un compromiso con el mismo.

Proyectos

Proyecto basado en Sistemas de Recomendación junto con la universidad de Boise (donde está dando trabajando Michael Ekstrand). El proyecto busca completar un espacio vacío que existe en cuanto a una base comparativa entre los distintos algoritmos y las distintas configuraciones de parametros en Sistemas de Recomendación, analizando cuando y por qué funciona mejor una u otra configuración. En el proyecto se están usando algunos datasets realmente grandes, por lo que es necesario recursos computacionales considerables. Además, la herramienta que se usa (LensKit) puede estar consumiendo mucha memoria, por lo que se necesitarían interesados con conocimientos en Java para identificar posibles problemáticas.
Proyecto de analisis topologico de set de datos de recomendaciones y de sistemas de recomendación. Se está usando el algoritmo Mapper, actualmente hay varias herramientas que lo implementan, pero ninguna está completa. El proyecto está recién empezando, por lo que lo que más se necesitan son ganas.
Proyecto de Sistemas de Recomendaciones para casos del estilo de Netflix. En páginas como Netflix, los usuarios generalmente no se detienen a calificar, sino que lo que hacen es ver o no ver las películas/series. Por ejemplo, sabemos que a un usuario le gusta una serie si mira varios capitulos seguidos en poco tiempo.
Proyecto de investigación de métricas para Sistemas de Recomendacion. Son dificil de evaluar los sistemas de recomendación. Por ejemplo, si a un sistema de recomendación le saco elementos y cuando evalúo un algoritmo los items recomendados son otros (no los extraídos), ¿por qué tiene que ser una señal de mal funcionamiento del sistema de recomendación? Es decir, se supone que lo que debe recomendar son cosas que no vió. En caso de que efectivamente encuentre los items eliminados, no estaríamos ante un caso de overfitting? Cual es la métrica que mejor correlación tiene, según lo que se busca en un sistema de recomendacion?
Proyectos que utilizan LSH (la librería usada es Falconn)
Además actualmente fueron enviados algunos proyectos relacionados con:
- LSH
- Comparativa entre el uso de redes neuronales y algoritmos de compresión de datos.
Más proyectos.

Proyectos realizados:

Hash2Vec: Algoritmo que busca generar embeddings de palabras a partir de la utilización de The Hashing Trick.
Procesamiento de imagenes con redes convolucionales (en el momento requerían mucho tiempo de cómputo; ahora es un poco menor gracias a TensorFlow).
Resumenes automáticos (se realizó una publicacion y lo incluyeron en un proyecto open source).

Preguntas realizadas durante la reunión:

¿Se necesita haber cursado la materia Organización de Datos? No es necesario; se necesita leer, tratar de incorporar la mayor cantidad de conocimiento y luego empezar a probar.
¿Hay algún antecedente de un grupo de investigacion en Ciencia de Datos en Argentina? No tenemos conocimientos de un laboratorio destinado a la Ciencia de Datos (sabemos que en otras facultades hay laboratorios destinados especificamente a la Inteligencia Artificial).
¿Qué es Lenskit, tiene alguna relación con el analisis topológico? Lenskit es una herramienta que provee los elementos necesarios para poder facilitar el estudio de sistemas de recomendación. Uno de los algoritmos más usados para el análisis topolígico es Mapper, el cual usa funciones llamadas Lentes (Lenses), puede ser que la confusión surja de estos conceptos.
¿Hay alguna bolsa de papers, un drive donde estén los pdfs? Se pueden recopilar los pdfs. Además, se espera que se dejen papers impresos y ya leidos (con aclaraciones en los márgenes!) en el laboratorio. De esta forma, los interesados pueden pasar y retirar algunos papers interesantes.
¿El codigo usado es open source? La mayor parte del código usado en el laboratorio es open source, tanto el generado como el usado. Se espera que los programas y algoritmos que se generen en el laboratorio sean open source (condición necesaria).

Comunicación:

El canal de comunicación principal será Slack. Los asistentes a la reunión interesados llenaron un formulario con su mail, como para poder ser invitados al grupo de Slack.

Si no asististe a la reunión pero queres participar, o si llenaste el formulario pero no recibiste la invitación, podés enviar un mail a largerich@fi.uba.ar (o comunicarte con cualquiera de los integrantes).