Ce que j'ai appris de Hacker News | Essais de Paul Graham

Février 2009

Hacker News a eu deux ans la semaine dernière. Initialement, ce devait être un projet secondaire — une application pour affûter Arc, et un lieu d'échange de nouvelles pour les fondateurs actuels et futurs de Y Combinator. Le site a pris plus d'ampleur et de temps que prévu, mais je ne le regrette pas car j'ai énormément appris en y travaillant.

Croissance

Lorsque nous avons lancé le site en février 2007, le trafic en semaine était d'environ 1600 visiteurs uniques quotidiens. Il a depuis atteint environ 22 000. Ce taux de croissance est un peu plus élevé que je ne le souhaiterais. J'aimerais que le site grandisse, car un site qui ne croît pas au moins lentement est probablement mort. Mais je ne voudrais pas qu'il devienne aussi grand que Digg ou Reddit — principalement parce que cela diluerait le caractère du site, mais aussi parce que je ne veux pas passer tout mon temps à gérer la mise à l'échelle (scaling).

J'ai déjà suffisamment de problèmes avec cela. Rappelez-vous, la motivation originale de HN était de tester un nouveau langage de programmation, et de surcroît un langage axé sur l'expérimentation de la conception linguistique, et non sur la performance. Chaque fois que le site ralentit, je me fortifie en me remémorant la célèbre citation de McIlroy et Bentley :

La clé de la performance est l'élégance, pas les bataillons de cas particuliers.

et je cherche le goulot d'étranglement que je peux éliminer avec le moins de code possible. Jusqu'à présent, j'ai réussi à suivre le rythme, en ce sens que les performances sont restées constamment médiocres malgré une croissance de 14x. Je ne sais pas ce que je ferai ensuite, mais je trouverai probablement quelque chose.

C'est mon attitude générale envers le site. Hacker News est une expérience, et une expérience dans un domaine très jeune. Les sites de ce type n'ont que quelques années. La conversation sur Internet en général n'a que quelques décennies. Nous n'avons donc probablement découvert qu'une fraction de ce que nous découvrirons à terme.

C'est pourquoi je suis si optimiste à propos de HN. Quand une technologie est aussi jeune, les solutions existantes sont généralement terribles ; ce qui signifie qu'il doit être possible de faire beaucoup mieux ; ce qui signifie que de nombreux problèmes qui semblent insolubles ne le sont pas. Y compris, j'espère, le problème qui a affligé tant de communautés précédentes : être ruinées par la croissance.

Dilution

Les utilisateurs s'en sont inquiétés depuis que le site n'avait que quelques mois. Jusqu'à présent, ces alertes se sont avérées fausses, mais elles ne le seront peut-être pas toujours. La dilution est un problème difficile. Mais probablement soluble ; cela ne signifie pas grand-chose que les conversations ouvertes aient "toujours" été détruites par la croissance quand "toujours" équivaut à 20 instances.

Mais il est important de se rappeler que nous essayons de résoudre un nouveau problème, car cela signifie que nous allons devoir essayer de nouvelles choses, dont la plupart ne fonctionneront probablement pas. Il y a quelques semaines, j'ai essayé d'afficher en orange les noms des utilisateurs ayant les scores de commentaires moyens les plus élevés. [1] Ce fut une erreur. Soudain, une culture plus ou moins unie s'est divisée entre ceux qui avaient et ceux qui n'avaient pas. Je n'avais pas réalisé à quel point la culture avait été unie avant de la voir divisée. C'était douloureux à regarder. [2]

Donc, les noms d'utilisateur orange ne reviendront pas. (Désolé pour cela.) Mais il y aura d'autres idées tout aussi bancales à l'avenir, et celles qui s'avéreront fonctionner sembleront probablement tout aussi bancales que celles qui ne fonctionnent pas.

La chose la plus importante que j'ai apprise sur la dilution est probablement qu'elle se mesure davantage en comportement qu'en nombre d'utilisateurs. Ce sont les mauvais comportements que l'on veut empêcher, plus que les mauvaises personnes. Le comportement des utilisateurs s'avère étonnamment malléable. Si l'on s'attend à ce que les gens se comportent bien, ils ont tendance à le faire ; et vice versa.

Bien sûr, interdire les mauvais comportements a tendance à éloigner les mauvaises personnes, car elles se sentent inconfortablement contraintes dans un endroit où elles doivent bien se comporter. Mais cette façon de les tenir à l'écart est plus douce et probablement aussi plus efficace que les barrières ostensibles.

Il est assez clair maintenant que la théorie des vitres brisées (broken windows theory) s'applique également aux sites communautaires. La théorie est que les formes mineures de mauvais comportement en encouragent de pires : qu'un quartier avec beaucoup de graffitis et de vitres brisées devient un lieu où se produisent des vols. Je vivais à New York lorsque Giuliani a introduit les réformes qui ont rendu célèbre la théorie des vitres brisées, et la transformation fut miraculeuse. Et j'étais un utilisateur de Reddit lorsque l'inverse s'y est produit, et la transformation fut tout aussi dramatique.

Je ne critique pas Steve et Alexis. Ce qui est arrivé à Reddit ne s'est pas produit par négligence. Dès le début, ils avaient pour politique de ne censurer rien d'autre que le spam. De plus, Reddit avait des objectifs différents de ceux de Hacker News. Reddit était une startup, pas un projet secondaire ; son objectif était de croître aussi vite que possible. Combinez une croissance rapide et une censure zéro, et le résultat est un chacun pour soi. Mais je ne pense pas qu'ils feraient beaucoup de choses différemment s'ils devaient recommencer. Mesuré par le trafic, Reddit a beaucoup plus de succès que Hacker News.

Mais ce qui est arrivé à Reddit n'arrivera pas inévitablement à HN. Il existe plusieurs maxima locaux. Il peut y avoir des endroits où c'est le chacun pour soi et des endroits plus réfléchis, tout comme dans le monde réel ; et les gens se comporteront différemment selon l'endroit où ils se trouvent, tout comme ils le font dans le monde réel.

J'ai observé cela sur le terrain. J'ai vu des gens publier sur Reddit et Hacker News qui ont pris la peine d'écrire deux versions, un "flame" (message incendiaire) pour Reddit et une version plus modérée pour HN.

Soumissions

Il y a deux types majeurs de problèmes qu'un site comme Hacker News doit éviter : les mauvaises histoires et les mauvais commentaires. Jusqu'à présent, le danger des mauvaises histoires semble moindre. Les histoires sur la page d'accueil (frontpage) sont encore à peu près les mêmes que celles qui s'y seraient trouvées au début de HN.

J'ai cru un jour que je devrais pondérer les votes pour éviter les bêtises sur la page d'accueil, mais je n'ai pas encore eu à le faire. Je n'aurais pas prédit que la page d'accueil tiendrait si bien, et je ne suis pas sûr de la raison. Peut-être que seuls les utilisateurs les plus réfléchis se soucient suffisamment de soumettre et de voter pour des liens, de sorte que le coût marginal d'un nouvel utilisateur aléatoire approche de zéro. Ou peut-être que la page d'accueil se protège elle-même, en annonçant le type de soumission attendu.

La chose la plus dangereuse pour la page d'accueil est le contenu trop facile à "upvoter" (voter positivement). Si quelqu'un prouve un nouveau théorème, il faut un certain travail au lecteur pour décider de le "upvoter" ou non. Un dessin animé amusant en demande moins. Un coup de gueule avec un cri de ralliement comme titre n'en demande aucun, car les gens le votent sans même le lire.

D'où ce que j'appelle le Principe du Fluff : sur un site d'actualités voté par les utilisateurs, les liens les plus faciles à juger prendront le dessus à moins que des mesures spécifiques ne soient prises pour l'empêcher.

Hacker News dispose de deux types de protections contre le "fluff". Les types les plus courants de liens "fluff" sont bannis car hors sujet. Les photos de chatons, les diatribes politiques, etc., sont explicitement interdites. Cela exclut la plupart du "fluff", mais pas tout. Certains liens sont à la fois "fluff", dans le sens où ils sont très courts, et également pertinents.

Il n'y a pas de solution unique à cela. Si un lien n'est qu'un coup de gueule vide, les éditeurs le suppriment parfois même s'il est pertinent au sens où il traite de "hacking", car il n'est pas pertinent selon le véritable critère, qui est d'engager la curiosité intellectuelle. Si les publications sur un site sont typiquement de ce genre, je les bannis parfois, ce qui signifie que tout nouveau contenu à cette URL est automatiquement supprimé (auto-killed). Si une publication a un titre "linkbait" (appât à clics), les éditeurs le reformulent parfois pour qu'il soit plus factuel. C'est particulièrement nécessaire pour les liens dont les titres sont des cris de ralliement, car sinon ils deviennent des publications implicites du type "votez si vous croyez ceci ou cela", qui sont la forme la plus extrême de "fluff".

Les techniques pour gérer les liens doivent évoluer, car les liens eux-mêmes évoluent. L'existence des agrégateurs a déjà affecté ce qu'ils agrègent. Les rédacteurs écrivent maintenant délibérément des choses pour attirer du trafic depuis les agrégateurs — parfois même des agrégateurs spécifiques. (Non, l'ironie de cette déclaration ne m'échappe pas.) Ensuite, il y a les mutations plus sinistres, comme le "linkjacking" — publier une paraphrase de l'article de quelqu'un d'autre et la soumettre à la place de l'original. Ceux-ci peuvent obtenir beaucoup de votes positifs ("upvotes"), car une grande partie de ce qui est bon dans un article survit souvent ; en effet, plus la paraphrase est proche du plagiat, plus il en survit. [3]

Je pense qu'il est important qu'un site qui supprime des soumissions offre aux utilisateurs un moyen de voir ce qui a été supprimé s'ils le souhaitent. Cela maintient l'honnêteté des éditeurs, et tout aussi important, donne aux utilisateurs la confiance qu'ils sauraient si les éditeurs cessaient d'être honnêtes. Les utilisateurs de HN peuvent le faire en activant un interrupteur appelé "showdead" dans leur profil. [4]

Commentaires

Les mauvais commentaires semblent être un problème plus difficile que les mauvaises soumissions. Alors que la qualité des liens sur la page d'accueil de HN n'a pas beaucoup changé, la qualité du commentaire médian a peut-être quelque peu diminué.

Il y a deux types principaux de "mauvaise qualité" dans les commentaires : la méchanceté et la stupidité. Il y a beaucoup de chevauchement entre les deux — les commentaires méchants sont de manière disproportionnée susceptibles d'être aussi stupides — mais les stratégies pour les gérer sont différentes. La méchanceté est plus facile à contrôler. On peut avoir des règles stipulant qu'il ne faut pas être méchant, et si on les applique, il semble possible de maîtriser la méchanceté.

Maîtriser la stupidité est plus difficile, peut-être parce que la stupidité n'est pas si facilement discernable. Les personnes méchantes sont plus susceptibles de savoir qu'elles sont méchantes que les personnes stupides ne le sont de savoir qu'elles sont stupides.

La forme la plus dangereuse de commentaire stupide n'est pas l'argument long mais erroné, mais la blague idiote. Les arguments longs mais erronés sont en fait assez rares. Il existe une forte corrélation entre la qualité des commentaires et leur longueur ; si vous vouliez comparer la qualité des commentaires sur les sites communautaires, la longueur moyenne serait un bon indicateur. La cause est probablement la nature humaine plutôt que quelque chose de spécifique aux fils de commentaires. Il est probable que la stupidité prenne plus souvent la forme d'avoir peu d'idées que d'avoir des idées fausses.

Quelle qu'en soit la cause, les commentaires stupides ont tendance à être courts. Et comme il est difficile d'écrire un commentaire court qui se distingue par la quantité d'informations qu'il transmet, les gens essaient de les distinguer en étant drôles. Le format le plus tentant pour les commentaires stupides est la prétendue moquerie spirituelle, probablement parce que les moqueries sont la forme d'humour la plus facile. [5] Ainsi, un avantage d'interdire la méchanceté est que cela réduit également ce type de commentaires.

Les mauvais commentaires sont comme le kudzu : ils envahissent rapidement. Les commentaires ont beaucoup plus d'effet sur les nouveaux commentaires que les soumissions n'en ont sur les nouvelles soumissions. Si quelqu'un soumet un article boiteux, les autres soumissions ne deviennent pas toutes boiteuses. Mais si quelqu'un publie un commentaire stupide sur un fil de discussion, cela donne le ton pour la région environnante. Les gens répondent aux blagues idiotes par des blagues idiotes.

Peut-être que la solution est d'ajouter un délai avant que les gens ne puissent répondre à un commentaire, et de rendre la durée du délai inversement proportionnelle à une prédiction de sa qualité. Alors les fils de discussion stupides grandiraient plus lentement. [6]

Les Gens

Je remarque que la plupart des techniques que j'ai décrites sont conservatrices : elles visent à préserver le caractère du site plutôt qu'à l'améliorer. Je ne pense pas que ce soit un de mes biais. C'est dû à la nature du problème. Hacker News a eu la chance de bien démarrer, donc dans ce cas, il s'agit littéralement d'une question de préservation. Mais je pense que ce principe s'appliquerait également à des sites d'origines différentes.

Les bonnes choses dans un site communautaire proviennent davantage des gens que de la technologie ; c'est principalement dans la prévention des mauvaises choses que la technologie entre en jeu. La technologie peut certainement améliorer la discussion. Les commentaires imbriqués le font, par exemple. Mais je préférerais utiliser un site avec des fonctionnalités primitives et des utilisateurs intelligents et agréables plutôt qu'un site plus avancé dont les utilisateurs seraient des idiots ou des trolls.

Ainsi, la chose la plus importante qu'un site communautaire puisse faire est d'attirer le type de personnes qu'il souhaite. Un site qui cherche à être aussi grand que possible veut attirer tout le monde. Mais un site visant un sous-ensemble particulier d'utilisateurs doit attirer uniquement ceux-là — et tout aussi important, repousser tous les autres. J'ai fait un effort conscient pour cela sur HN. Le design graphique est aussi simple que possible, et les règles du site découragent les titres de liens dramatiques. L'objectif est que la seule chose qui intéresse quelqu'un arrivant sur HN pour la première fois soit les idées qui y sont exprimées.

L'inconvénient d'adapter un site pour attirer certaines personnes est que, pour ces personnes, il peut être trop attrayant. Je suis tout à fait conscient à quel point Hacker News peut être addictif. Pour moi, comme pour de nombreux utilisateurs, c'est une sorte de place publique virtuelle. Quand je veux faire une pause dans mon travail, je me promène sur la place, tout comme je pourrais le faire à Harvard Square ou sur University Ave dans le monde physique. [7] Mais une place en ligne est plus dangereuse qu'une place physique. Si je passais la moitié de la journée à flâner sur University Ave, je le remarquerais. Je dois marcher un kilomètre pour y arriver, et s'asseoir dans un café est différent de travailler. Mais visiter un forum en ligne ne prend qu'un clic, et ressemble superficiellement beaucoup à du travail. Vous perdez peut-être votre temps, mais vous n'êtes pas inactif. Quelqu'un a tort sur Internet, et vous êtes en train de résoudre le problème.

Hacker News est définitivement utile. J'ai beaucoup appris des choses que j'ai lues sur HN. J'ai écrit plusieurs essais qui ont commencé comme des commentaires là-bas. Je ne voudrais donc pas que le site disparaisse. Mais j'aimerais être sûr qu'il ne constitue pas un frein net à la productivité. Quel désastre ce serait, d'attirer des milliers de personnes intelligentes sur un site qui leur ferait perdre beaucoup de temps. J'aimerais pouvoir être sûr à 100% que ce n'est pas une description de HN.

J'ai l'impression que la nature addictive des jeux et des applications sociales est encore un problème largement non résolu. La situation actuelle est similaire à celle du crack dans les années 1980 : nous avons inventé de nouvelles choses terriblement addictives, et nous n'avons pas encore développé de moyens de nous en protéger. Nous y parviendrons un jour, et c'est l'un des problèmes sur lesquels j'espère me concentrer ensuite.

Notes

[1] J'ai essayé de classer les utilisateurs à la fois par score moyen et médian de commentaire, et la moyenne (avec le score le plus élevé écarté) semblait être le prédicteur le plus précis de haute qualité. La médiane pourrait cependant être le prédicteur le plus précis de basse qualité.

[2] Une autre chose que j'ai apprise de cette expérience est que si vous allez distinguer les gens, vous feriez mieux de vous assurer de le faire correctement. C'est un problème où le prototypage rapide ne fonctionne pas.

En effet, c'est l'argument intellectuellement honnête pour ne pas discriminer entre différents types de personnes. La raison de ne pas le faire n'est pas que tout le monde est pareil, mais qu'il est mauvais de mal faire et difficile de bien faire.

[3] Lorsque je repère des publications manifestement "linkjackées", je remplace l'URL par celle de ce qu'elles ont copié. Les sites qui pratiquent habituellement le "linkjacking" sont bannis.

[4] Digg est connu pour son manque de transparence. La racine du problème n'est pas que les gars qui dirigent Digg soient particulièrement sournois, mais qu'ils utilisent le mauvais algorithme pour générer leur page d'accueil. Au lieu de remonter du bas à mesure qu'ils obtiennent plus de votes, comme sur Reddit, les histoires commencent en haut et sont poussées vers le bas par les nouvelles arrivées.

La raison de la différence est que Digg est dérivé de Slashdot, tandis que Reddit est dérivé de Delicious/popular. Digg est Slashdot avec des votes au lieu d'éditeurs, et Reddit est Delicious/popular avec des votes au lieu de favoris. (On peut encore voir des fossiles de leurs origines dans leur conception graphique.)

L'algorithme de Digg est très vulnérable au "gaming" (manipulation), car toute histoire qui arrive sur la page d'accueil est la nouvelle histoire principale. Ce qui force à son tour Digg à réagir avec des contre-mesures extrêmes. Beaucoup de startups ont une sorte de secret sur les subterfuges auxquels elles ont dû recourir à leurs débuts, et je soupçonne que celui de Digg est la mesure dans laquelle les histoires principales étaient de facto choisies par des éditeurs humains.

[5] Les dialogues de Beavis et Butthead étaient largement composés de cela, et quand je lis des commentaires sur de très mauvais sites, je peux les entendre dans leurs voix.

[6] Je soupçonne que la plupart des techniques pour décourager les commentaires stupides n'ont pas encore été découvertes. Xkcd en a mis en œuvre une particulièrement astucieuse dans son canal IRC : ne pas autoriser la même chose deux fois. Une fois que quelqu'un a dit "fail", personne ne peut plus jamais le dire. Cela pénaliserait particulièrement les commentaires courts, car ils ont moins de place pour éviter les collisions.

Une autre idée prometteuse est le filtre stupide, qui est comme un filtre anti-spam probabiliste, mais entraîné sur des corpus de commentaires stupides et non stupides.

Vous n'avez peut-être pas besoin de supprimer les mauvais commentaires pour résoudre le problème. Les commentaires en bas d'un long fil de discussion sont rarement vus, il peut donc suffire d'incorporer une prédiction de qualité dans l'algorithme de tri des commentaires.

[7] Ce qui rend la plupart des banlieues si démoralisantes, c'est qu'il n'y a pas de centre où se promener.

Remerciements à Justin Kan, Jessica Livingston, Robert Morris, Alexis Ohanian, Emmet Shear et Fred Wilson pour la relecture des ébauches de cet essai.

Commenter cet essai.