Accueil > Colloques et journées d’études > 9ème édition Atelier Recherche d’Information SEmantique

9ème édition Atelier Recherche d’Information SEmantique

Bibliographie

9ème édition Atelier Recherche d’Information SEmantique
mardi 4 juillet 2017

Soutenu par l’ARIA (Association francophone en Recherche d’Information
et Applications) et le collège Science de l’Ingénierie des Connaissances
de l’AFIA (Association Française pour l’Intelligence Artificielle).

Associé aux 28es Journées francophones d’Ingénierie des Connaissances
dans le cadre de PFIA (Plateforme Francophone d’Intelligence
Artificielle).


Le formulaire d’inscription est disponible en ligne :
https://pfia2017.greyc.fr/inscriptions

Nous aurons deux conférences invitées, une session recherche et une
session entreprise.

Le programme est en ligne sur le site : rise.imag.fr/ .

Conférencier invité Mathieu Lafourcade, LIRMM, Université de Montpellier
2.

10 ans de JeuxDeMots : un gros réseau lexico-sémantique obtenu par
crowdsourcing

Résumé : Le projet JeuxDeMots a pour objet de construire un réseau
lexical de sens commun (et de spécialité) en français à l’aide de jeux
(gwaps - games with a purpose), d’approches contributives mais également
de mécanismes d’inférences. Une dizaine de jeux ont été conçus dans le
cadre du projet, chacun permettant de collecter des informations
spécifiques ou encore de vérifier la qualité de données acquise via un
autre jeu. Cet exposé s’attachera à décrire la nature des données que
nous avons collectées et construites depuis le lancement du projet
durant l’été 2007.

Nous décrirons en particulier les aspects suivant : la structure de
réseau lexical obtenu, les types de relations sémantiques représentées
(ontologiques, subjectives, rôles sémantiques, associations d’idées),
les questions liées à l’activation et l’inhibition de termes et
relations, l’annotation de relations (méta-informations), les
raffinements sémantiques (gestion de la polysémie), la création
d’agglomérations permettant la représentation de connaissances plus
riches.

Ce réseau lexical, distribué sous licence libre, est exploité dans de
nombreux laboratoires de recherche et entreprises. Les applications en
cours utilisant le réseau JeuxDeMots concernent principalement
l’interprétation sémantique de textes, la compréhension de l’écrit, la
recherche d’information, l’inférence de faits, l’analyse d’opinions et
de sentiments - et ce dans des domaines comme la radiologie, le
tourisme, la nutrition. Construit à partir d’une liste de 150 000 termes
sans aucune relation entre eux, le réseau lexical de JeuxDeMots contient
maintenant plus de 1000 000 termes et plus de 80 millions de relations.



Conférencière invitée : Kata Gabor, LIPN, UMR 7030, Université Paris 13

Acquisition automatique de relations entre concepts dans le domaine
scientifique

Résumé : De nos jours, la production d’articles scientifiques croît à un
rythme accéléré. Cette explosion d’information rend le travail des
chercheurs, des experts et des relecteurs de plus en plus difficile et
nécessite de nouvelles méthodes pour la compréhension, l’extraction et
la structuration automatique de l’information dans les textes de
spécialité. Comme la disponibilité et la couverture des bases de
connaissances existantes est souvent insuffisante, nous proposons de
prendre comme point de départ l’analyse sémantique du contenu afin de
faire émerger un modèle de connaissances. Nous présentons deux approches
non supervisées pour l’acquisition des relations sémantiques dans un
corpus de spécialité. L’identification des relations ne nécessite pas
des données d’apprentissage annotées et bien qu’elle soit spécifiquement
dédiée à la littérature scientifique, elle reste applicable sur
n’importe quel domaine pour lequel une telle littérature existe.

La présentation explorera les problématiques spécifiques à la tÂche non
supervisée. Deux approches complémentaires seront distinguées et
explorées. La première se concentre principalement sur les relations
lexicales, qui se caractérisent par une sélection sémantique des
arguments, et qui ne dépendent pas du contexte. Cette approche est basée
sur la représentation du sens des mots individuels par des vecteurs
distributionnels (word embeddings). Les vecteurs sont créés à partir de
corpus et combinés pour représenter le sens et la relation sémantique du
couple d’entités. Nous proposons une nouvelle méthode de combinaison de
vecteurs distributionnels qui permet de mieux estimer la similarité
relationnelle entre deux couples d’entités. L’avantage de cette méthode
est de pouvoir s’appliquer à des couples d’entités qui ont peu de
co-occurrences dans le corpus. La deuxième approche, à son tour,
s’applique aux relations contextuelles et s’appuie sur les contextes de
co-occurrence des entités. Les couples d’entités sont caractérisés par
leurs co-occurrences avec des motifs spécifiques à la relation, qui sont
extraits automatiquement à partir du corpus. Nous montrons que cette
approche peut bénéficier de la fouille de motifs séquentiels, qui crée
un espace vectoriel plus adapté (moins creux) pour un clustering non
supervisé.

Liens

Site du colloque
Retour à l'annuaire