Systèmes complexes en sciences sociales

Année 2018/2019

Henri Berestycki (directeur d’études à l’EHESS)
Jean-Pierre Nadal (directeur d’études à l’EHESS et directeur de recherche au CNRS)

Le séminaire « Systèmes complexes en sciences sociales » se tient (sauf mention contraire) tous les 2ème et 4ème vendredis de cette année 2018-2019, à partir du 9 novembre (voir le site de l’Ehess), à 14h30, en salle A4-47 (4ème étage), 54 bd Raspail, 75006 Paris. Entrée libre dans la limite des places disponibles.
Contact : jpnadal@ehess.fr

  • Vendredi 14 juin, 14h30 salle A4-47, à l’EHESS, 54 bd Raspail.

    Imke Mayer
    EHESS – CAMS
    Inférence causale et données manquantes : illustration sur l’analyse de données médicales

    Résumé. Dans la recherche en santé et en sciences sociales, les études observationnelles prospectives sont fréquentes, relativement faciles à mettre en place (contrairement aux études expérimentales d’essais randomisés qui sont parfois même impossible à réaliser), et peuvent permettre différents types d’analyses postérieures telles que des analyses causales – comme par exemple estimer l’effet statistique d’un traitement sur l’état futur du patient.
    L’estimation de l’effet moyen du traitement (en anglais average treatment effect, ATE), par exemple, est possible grâce à l’utilisation de scores de propension, c’est-à-dire des pondérations des observations qui permettent de corriger les biais d’affectation du traitement dus à de la confusion, i.e. la présence de facteurs dits confondants car liés à la fois à l’affectation du traitement et à la variable d’intérêt. Cependant, un problème majeur avec de grandes études observationnelles est leur complexité et leur caractère souvent incomplet : les variables renseignées dans la base peuvent correspondent à des mesures ou observations prises à différents niveaux et stades, elles peuvent être hétérogènes – catégorielles et quantitatives -, et contiennent presque inévitablement des valeurs manquantes.
    Le problème des valeurs manquantes dans l’inférence causale a longtemps été ignoré et n’a regagné l’attention que récemment en raison des impacts non négligeables en termes de puissance et de biais statistiques induits par des méthodes d’analyse validées sur des cas complets, et des modèles d’imputation (affectation de valeurs aux données manquantes) mal spécifiés. Nous discutons des conditions dans lesquelles une inférence causale peut être possible malgré la présence de valeurs manquantes dans les facteurs confondants, et comparons différentes méthodes proposées dans le passé pour traiter les valeurs confondantes manquantes.
    Nous proposons deux nouveaux estimateurs ATE double robustes (notion qui sera explicitée) qui rendent directement compte des valeurs manquantes. Nous évaluons la performance de nos estimateurs sur une grande base de données contenant des informations détaillées sur environ 20 000 patients poly-traumatisés graves en France. À l’aide des estimateurs proposés et de cette base de données, nous étudions l’effet sur la mortalité de l’administration de l’acide tranexamique aux patients présentant un choc hemorragique.

    Travail en collaboration avec Julie Josse (Ecole Polytechnique), Jean-Pierre Nadal (CNRS & EHESS), Stefan Wager (Stanford University), Tobias Gauss et Jean-Denis Moyer (Hôpital Beaujon, APHP), dans le cadre du programme Traumabase de l’APHP.

  • Jeudi 23 mai, 14h30 salle A5-51, à l’EHESS, 54 bd Raspail (attention, jour de semaine et salle inhabituels)

    Thorsten Emig
    CNRS – LPTMS, Université Paris Sud & MIT
    A minimal power model for human running performance

    Abstract: Low level of aerobic fitness is an inevitable consequence of physical inactivity and sedentary lifestyle that is believed to be one of the most important public health problem of the 21st century. Physical inactivity and poor physical fitness are associated with several health problems. Positively, improvements in aerobic fitness have been shown to reduce all-cause mortality. Hence, it is important to be able to asses physiological profiles which are associated with exercise. I shall present a model that can be used to measure physiological parameters without laboratory testing, using commonly available performance data from recreational (and also professional) runners.
    Models for human running performances of various complexities and underlying principles can be found in the literature, often combining data from world record performances and bio-energetic facts of human physiology. I shall present a model that is based on a self-consistency relation for the time dependent maximal power output. Our analytic approach is the first to derive the previously observed logarithmic scaling relation between world (and other) record running speeds and times from basic principles of metabolic power supply. I shall demonstrate that various female and male record performances (world, national) and also personal best performances of individual runners for distances from 800m to the marathon are excellently described by this model. Observed mean errors for race times are (often much) less than 1%. The model defines endurance in a way that demonstrates symmetry between long and short racing events that are separated by a characteristic time scale comparable to the time over which a runner can sustain maximal oxygen uptake. The model is applied to running performance data for more than 30.000 marathon runs, including a total of a few million training runs.

  • Vendredi 10 mai, 14h30 salle A4-47, à l’EHESS, 54 bd Raspail.

    Sabine Ploux
    CNRS – CAMS
    Les mots du Grand Débat National : méthodes, et analyse des résultats préliminaires

    Dans cet exposé je présenterai la méthode d’analyse des réseaux lexicaux des Atlas sémantiques appliquée au corpus des contributions ouvertes du Grand débat national, et des contributions soumises sur les plateformes le « Vrai débat » et « Entendre la France ». Il s’agira d’expliquer les choix de l’analyse, des grandes tendances observées, une comparaison entre les différents corpus. Cette étape du travail est préliminaire et demande à être poursuivie et complétée. Je présenterai quelques pistes pour la suite.

  • Vendredi 22 mars, 14h30 salle A4-47, à l’EHESS, 54 bd Raspail.

    José Moran
    EHESS, CAMS & CFM
    Les systèmes économiques diversifiés sont-ils stables ?

    De manière très naïve, on pourrait s’attendre à ce que les fluctuations de quantités économiques s’annulent rapidement lors de l’agrégation d’un grand nombre d’entités. Or on constate empiriquement qu’il n’en est rien. Plusieurs explications ont été avancées, dont des effets de réseaux, des perturbations affectant toute l’économie ou des effets granulaires, mais aucune ne semble suffisante.
    Dans les années 90, Bak, Chen, Scheinkman et Woodford ont proposé un scénario dit de « criticalité auto-organisée » (SOC de par son acronyme en anglais), mais leur modèle n’a pas été jugé suffisamment général et donc crédible par la communauté académique.
    Nous proposons ici un cadre général où la SOC émerge naturellement et avec des hypothèses très faibles. Nous étudions un modèle de firmes interconnectées, où les perturbations se propagent le long du réseau. Dans ce contexte, l’ajout d’entreprises au réseau, l’accroissement des interdépendances entre elles, la maximisation de leurs profits ou une faible élasticité de substitution entre les biens qu’elles produisent sont tous des facteurs qui poussent l’économie vers un régime susceptible d’engendrer des grandes fluctuations. Ce modèle permet également de proposer une classification des différentes crises et/ou fluctuations en fonction des propriétés des espaces propres d’une matrice décrivant les entreprises et leurs interconnexions.
    (avec Jean-Philippe Bouchaud, CFM. Preprint sur SSRN).

  • Vendredi 8 mars, 14h30, à l’EHESS, 54 bd Raspail.

    Changement de salle : cette séance se tiendra salle BS1-28 (1er sous-sol au 54 bd Raspail, salle de plus grande capacité que la salle habituelle, A4-47).

    Quelles que soient nos opinions sur la pertinence du Grand Débat National, et les critiques sur la manière dont il est organisé, c’est un fait que cette opération est en train de générer une grande quantité de données dont l’exploitation ne sera pas simple a priori, qu’il s’agisse d’extraire des indications pour orienter des choix politiques ou de saisir une opportunité d’étudier des faits de société.
    Cette séance du Séminaire Systèmes complexes sera consacrée à la présentation et discussion de projets d’analyse des données qui sont collectées dans le cadre du Grand Débat National. Nous accueillerons David Chavalarias (CNRS, CAMS & ISC-PIF) qui exposera le projet qu’il pilote à l’Institut des Systèmes Complexes de Paris-Ile-de-France, et Jean-Daniel Fekete (INRIA Saclay) et Philippe Caillou (LRI, UPSud) pour le projet « cartolabe » (INRIA-CNRS-UPSud).
    Les exposés seront suivis d’une discussion-débat. Nous encourageons notamment les collègues qui seraient impliqués dans d’autres initiatives à contribuer à cette discussion.

    A propos de Cartolabe : Cartolabe est un système destiné à explorer de grands corpus textuels (plusieurs millions de documents) en présentant une carte de densité où chaque point est un item du corpus (article, personne, concept, etc.). La position des points est calculée par une projection multi-dimensionnelle qui assure que des items similaires soient proches sur la carte. Grâce à une interface web réactive et multi-échelle, Cartolabe permet l’exploration de corpus comme le Grand débat (2 millions de contributions en ligne et plusieurs millions de contributions supplémentaires saisies lors des réunions). L’exposé de Jean-Daniel Fekete et Philippe Caillou exposera quelques unes des nouvelles possibilités d’analyses offertes par Cartolabe pour la prise en main d’un corpus aussi atypique que le Grand débat.

  • Vendredi 22 février, 14h30, salle A4-47 à l’EHESS, 54 bd Raspail.

    Jérôme Sackur
    Directeur d’études à l’EHESS,
    Laboratoire de Sciences Cognitives et Psycholinguistique (ENS/CNRS/EHESS)

    Quels outils expérimentaux et formels pour l’étude de la dynamique du flux de conscience?
    Résumé : En psychologie cognitive, nous nous donnons pour objet les structures mentales et leurs propriétés computationnelles. Classiquement, au niveau global nous nous intéressons à l’architecture cognitive, et au niveau modulaire nous étudions les représentations et les mécanismes de traitement associés. Curieusement, cet accent structurel se retrouve dans la psychologie cognitive de la conscience, alors même que la conscience se manifeste apparemment comme un flux, avec sa dynamique propre. Je voudrais montrer ici comment la recherche sur la « rêverie éveillée » (mind-wandering) entre-ouvre une porte expérimentale et formelle sur cette question. Dans une première partie, je présenterai des résultats suggérant que l’on peut, dans le cas d’une tâche comportementale simple reconstruire la dynamique des états mentaux, au moyen d’un modèle de Markov caché exploitant la variabilité des réponses des participants. Je montrerai les limites intrinsèques de cette approche et je défendrai l’idée que si on veut étudier la dynamique du flux de conscience, il est sans doute difficile de se passer de données langagières (depuis de simples tâches d’associations d’idées jusqu’à de la parole libre). Je présenterai quelques résultats préliminaires d’une tâche de fluence sémantique, dans laquelle il s’agit de nommer le plus grand nombre d’animaux en trois minutes. On peut concevoir cette tâche comme un parcours dans un espace multi-dimensionnel, et je proposerai l’hypothèse que les propriétés de ces parcours reflètent la dynamique sous-jacente de la pensée.

  • Pas de séance le vendredi 8 février 2019.
  • Vendredi 25 janvier, 14h30, salle A4-47 à l’EHESS, 54 bd Raspail.

    Séance co-organisée avec Julien Randon-Furling (SAMM, Paris 1-Panthéon Sorbonne)
    Cycle en hommage à Thomas Schelling.

    William A.V. Clark
    University of California, Los Angeles, USA
    Does income based sorting modify patterns of ethnic segregation?
    Re-evaluating Schelling outcomes in neighborhoods in Sweden

    Joint work with Bo Malmberg, Stockhom University, Sweden
    Abstract: The majority of segregation studies focus on ethnic concentration but there is growing recognition that ethnic concentrations are complexly related to economic segregation. The large scale foreign born flows into Swedish cities have created migrant (ethnic) concentrations which are also areas of concentrated poverty. However, seemingly in contrast with intersections of poverty and ethnicity in US cities, we suggest that all individuals with low income, irrespective of ethnic status (including Swedish born), are strongly sorted into these neighborhoods. We show that economic status is a factor in migrant concentration, and that ethnic concentration can be a by-product of economic segregation. Thus, residential sorting by income in large cities in Sweden is a factor in ethnic concentration but for non-migrant and migrant populations. While this finding does not negate the general finding that ethnic preferences create ethnic clustering, non-immigrant choices play important roles in making ethnic segregation less severe, but can, at the same time, lead to increasing socio-economic segregation.

  • Pas de séance le vendredi 11 janvier 2019.
  • Séance supplémentaire, en partenariat avec le SAMM, Université Paris 1 – Panthéon Sorbonne (contact : Julien Radon-Furling). Cycle en Hommage à Thomas Schelling :
    Vendredi 21 décembre 2018, 14h30, Institut des Systèmes Complexes (113 rue Nationale, Paris 13ème, premier étage)

    Stefanie Stantcheva
    Professor of Economics, Harvard University
    Dancing with the stars: Innovation through interactions
    Abstract: An inventor’s own knowledge is a key input in the innovation process. This knowledge can be built by interacting with and learning from others. This paper uses a new large-scale panel dataset on European inventors matched to their employers and patents. We document key empirical facts on inventors’ productivity over the life cycle, inventors’ research teams, and interactions with other inventors. Among others, most patents are the result of collaborative work. Interactions with better inventors are very strongly correlated with higher subsequent productivity. These facts motivate the main ingredients of our new innovation-led endogenous growth model, in which innovations are produced by heterogeneous research teams of inventors using inventor knowledge. The evolution of an inventor’s knowledge is explained through the lens of a diffusion model in which inventors can learn in two ways: By interacting with others at an endogenously chosen rate; and from an external, age-dependent source that captures alternative learning channels, such as learning-by-doing. Thus, our knowledge diffusion model nests inside the innovation-based endogenous growth model. We estimate the model, which fits the data very closely, and use it to perform several policy exercises, such as quantifying the large importance of interactions for growth, studying the effects of reducing interaction costs (e.g., through IT or infrastructure), and comparing the learning and innovation processes of different countries.

  • Vendredi 14 décembre, 14h30, salle A4-47 à l’EHESS, 54 bd Raspail.

    Camille Roth
    CNRS, Centre Marc Bloch, Berlin
    Fragmentation des espaces publics numériques – un point de vue socio-sémantique
    Résumé : La possible « balkanisation » des espaces publics numériques a fait l’objet d’une attention croissante au cours de la dernière décennie, au sein d’un débat plus large sur la contribution d’internet aux processus de délibération collective. Suivant cette hypothèse introduite dès la fin des années 90, les espaces de conversation en ligne seraient fragmentés, organisés en communautés voire en « chambres d’écho » plus ou moins reliées entre elles et plus ou moins cohésives, aussi bien d’un point de vue interactionnel (par exemple, liens de conversation, de citation, d’affiliation) que sémantique (par exemple, orientation politique des acteurs, vocabulaire mobilisé, sujets abordés). Nous procéderons en premier lieu à une revue de la littérature récente sur le sujet, notamment au prisme d’études qui s’attachent à lier interaction et information et qui portent généralement sur la plateforme de micro-blogging Twitter. Nous présenterons ensuite une série de résultats nouveaux concernant l’existence d’un espace public européen sur Twitter (fragmentation en termes linguistiques et internationaux), la visibilité des discours climato-sceptiques au sein des conversations autour des publications de l’IPCC (fragmentation en termes de positions et de vocabulaires) et, enfin, la dynamique de formation des réseaux égo-centrés de Facebook (fragmentation des cercles sociaux sous-jacents).

  • Vendredi 23 novembre, 14h30, salle A4-47 à l’EHESS, 54 bd Raspail.

    Amandine Aftalion
    Directrice de recherche au CNRS, CAMS
    La course à pied en équations
    Résumé : Il est en général admis par les coureurs que, dans un stade, les lignes les plus favorables sont celles du milieu. En effet, à l’extérieur, on court en aveugle, tandis que les lignes intérieures présentent le désavantage d’une grande force centrifuge. Le but de cet exposé est de mettre ces effets en équations pour déterminer la performance optimale d’un coureur : la physique de la force centrifuge, l’effet motivation à avoir quelqu’un devant, le retard à réagir quand on est doublé. On expliquera le modèle et l’effet sur la performance des différentes formes de stade ; on présentera des simulations numériques à un et deux coureurs, ainsi que les perspectives ou améliorations possibles.

  • Vendredi 9 novembre, 14h30, salle A4-47 à l’EHESS, 54 bd Raspail.

    Nous inaugurons le Séminaire de l’année 2018-2019 par une séance de notre série autour des travaux de Thomas Schelling :
    Madalina Olteanu & Julien Randon-Furling
    Université Paris 1 Panthéon-Sorbonne
    Ségrégation urbaine: distances focales et effets de distorsion
    Résumé : Nous proposons une méthode d’analyse des dissimilarités spatiales d’une ville fondée sur la représentation de celle-ci par un faisceau de trajectoires, obtenues en explorant la ville à partir de chacun de ses points. L’échelle à partir de laquelle une trajectoire converge vers la ville entière constitue en quelque sorte une distance focale : le rayon du disque qu’il faut parcourir, en partant de tel point, pour « voir » la ville telle qu’elle est en réalité, dans son ensemble. Cette distance dépend de la variable (ou de la distribution) considérée, ainsi que du seuil de convergence choisi. Une intégrale permet à la fois de s’affranchir de l’arbitraire dans le choix du seuil et d’identifier les points pour lesquels la convergence est presque toujours lente, y compris pour des seuils relativement élevés. Nous définissons ainsi un coefficient de distorsion, qui mesure à quel point l’image de la ville, perçue en tel ou tel point, est différente de son image globale réelle.
    Référence : J. Randon-Furling, M. Olteanu, W. Clark, A. Lucquiaud, From urban segregation to spatial pattern detection, Environment & Planning B: Urban Analytics & City Science (2018) https://doi.org/10.1177/2399808318797129


Archives :

année 2017/2018
année 2016/2017
année 2015/2016
année 2014/2015
année 2013/2014
année 2012/2013
année 2011/2012
année 2010/2011
année 2009/2010
année 2008/2009