Saturday - Oct 21, 2017

Cámara de Secretos: Enseñando a una máquina de lo que el Congreso se preocupa


congress_Column

¿Quieres saber de qué temas distintivos se preocupan tus miembros del Congreso?

por Jeremy B. Merrill

Si preguntó a los expertos del Congreso qué temas legislativos, digamos, la senadora Patty Murray de Washington, se especializan en, tendrían algunas suposiciones bastante buenas: tal vez la educación y la atención de la salud – porque ella es el miembro de alto rango en un comité clave que supervisa esas cuestiones. Si usted pregunta quién más en el Senado comparte sus intereses, puede escuchar al senador Michael Bennet de Colorado.
¿Por qué? Porque él es un superintendente anterior de la escuela y un miembro en ese mismo comité.

Podrían hacerles la misma pregunta acerca de más miembros del Congreso, pero antes de pasar por todos los 535 legisladores, probablemente colgarán a usted.

Pero, ¿qué pasaría si pudiéramos enseñar a una computadora qué temas específicos son distintivos para cada miembro? Hicimos precisamente eso. Hemos entrenado un modelo de computadora para extraer las frases que un miembro del Congreso usa más que el resto, usando cientos de miles de comunicados de prensa desde 2015 hasta el presente.

Esperamos que esta adición a las páginas de los miembros de Representan le dé a los mandantes una nueva visión de lo que las personas que trabajan en sus nombres se especializan en, ya sea por temas candentes o por acontecimientos locales.

Muchos de los resultados son intuitivos: el representante Jared Polis, un representante demócrata de Colorado que es conocido como libertario civil, tiene “privacidad de correo electrónico” como tema; el modelo también sabe que el senador Mitch McConnell, el republicano de Kentucky, habla a menudo de “mineros de carbón”.

Pero la fuerza del modelo no consiste en hacer observaciones obvias, sino en detectar otras cosas que no. El modelo ha recogido en el uso del New Jersey Demócrata Josh Gottheimer de la frase “Estados moocher”, por ejemplo, una frase más estrechamente asociada con grupos libertarios que su propio partido. Y el modelo reconoce el interés del representante Yvette Clarke por los “generales confederados”, en lo que se refiere a nombres de calles en Fort Hamilton, cerca de su distrito de Brooklyn, Nueva York.

El modelo observa problemas que no están muy en el radar nacional, como la “regla wotus” – AKA, las aguas de la regla de los Estados Unidos, un cambio en quién regula la contaminación del agua que ha levantado la ira de los republicanos como el representante Bob Gibbs de Ohio. O el interés generalizado entre los representantes del Oeste rural, incluyendo al senador Mike Enzi, de Wyoming, y al representante Rob Bishop de Utah, acerca de si agregar el gusano sabio a la lista de especies amenazadas, desencadenando reglas que podrían limitar la agricultura y la industria cerca del hábitat de la ave.

El hecho de que un tema aparezca en la lista de un miembro pero no de otro no significa que el segundo miembro del Congreso no se preocupe por ello.
Simplemente puede haber temas más distintivos de los que hablan. Y por ahora, eso significa grandes temas sobre los cuales muchos representantes y senadores hablan, como educación o crimen, no están incluidos en la lista de cada miembro. Pero también estamos trabajando en formas de reflejarlas.
Junto con la identificación de temas discretos, el modelo encuentra qué comunicados de prensa de los miembros del Congreso son más similares, en tópico o giros de frase, en esencia calcular quién “suena como” a quién.

El representante cuyos comunicados de prensa están más cerca del representante John Lewis es el representante A. Donald McEachin, otro demócrata afroamericano de un estado del sur. El representante Thomas Massie, dice el modelo, publica lanzamientos similares al senador Rand Paul, su compañero de Kentucky que también se inclina libertario.

Cómo funciona el modelo

Nuestro código se basa en una aproximación de lo que significan las palabras en inglés creadas por representar matemáticamente el contexto en el que se producen. La teoría de que esto le daría una idea de los significados de las palabras se llama “Semántica Distribucional”.

Por qué la técnica particular que usamos, llamada Word2Vec, funciona tan bien es un poco un misterio – especialmente si usted, como yo, nunca estudió álgebra lineal – pero funciona. Sin haber sido explícitamente programado para saber nada sobre la política estadounidense, el modelo ha aprendido mucho sobre cómo funciona nuestro país:

• Sabe que “impuesto de muerte” e “impuesto de sucesión” se refieren a lo mismo.
• Si le pregunta al modelo que tiene el mismo tipo de relación con el líder de la mayoría del Senado Mitch McConnell que la Representante Nancy Pelosi tiene al Representante Paul Ryan, su respuesta es el Senador Chuck Schumer – el líder de la minoría demócrata en el Senado. (Bueno, es un empate: el modelo sugiere que Schumer y su predecesor en esa posición, Harry Reid.)

Una técnica relacionada, Doc2Vec, asigna un valor a comunicados de prensa individuales oa todo el cuerpo de comunicados de prensa de un miembro a partir de la suma de los significados de las palabras. Similar a la forma en que DW-Nominate, una poderosa técnica estadística utilizada para caracterizar a los políticos en un espectro político, transforma el registro de votación de un congresista en un lugar en dos dimensiones, Doc2vec transforma lo que dice el congresista en un lugar en 100 dimensiones . (Sin embargo, a diferencia de DW-Nominate, no hay una buena manera de traducir esas dimensiones en algo que tenga sentido analítico para los seres humanos). Encontrar miembros del Congreso que suenen igual es tan fácil como encontrar al “vecino más cercano” de cada miembro en este espacio imaginario de 100 dimensiones.

Los temas se generan de una manera que utiliza el mismo software, llamado Gensim, pero se basa menos en álgebra lineal y más en contar. Encuentra las frases que ocurren con mayor frecuencia en las declaraciones de cada miembro, pero rara vez en las de los demás – una técnica estadística llamada frecuencia de término (sobre) inversa-documento-frecuencia (a menudo abreviada a “TF-IDF” . Más concretamente, encuentra que las declaraciones del senador Enzi contienen mucho la frase “urogallo sabio”, pero esa frase aparece con frecuencia en sólo algunas declaraciones de otros miembros. Un tema más general como “entorno” no aparecería, ya que es relativamente común y sólo una palabra larga.

Deja un comentario