Archives novembre 2023

How to create a C or C++ library (DLL): common mistakes

En français : Créer une librairie (DLL) en C ou C++ : quelques erreurs à éviter.

It is common to provide a software library with a software or a hardware product. For instance, if you sell a scientific computation software, the customers need to read the output files or integrate some functions of your program in their software. If you sell carbon dioxide sensors, you can provide a DLL (Dynamic Link Library) to allow customers to read measured values.

Regardless of the programming language of your software, providing a C interface is convenient because it enables an integration in nearly every language.

On Windows, you provide a .dll file containing functions useful for the customer, a .lib file listing the functions and indicating how to find them in the .dll file and a .h file giving human-readable signatures of functions. On Linux, the DLL is called .so and is only provided with a .h file.

Should I provide a C or C++ interface?

If you're developing your program in C++ and your customers are also using C++, providing a DLL for this language gives a clear interface and benefits from classes and references. This is what Qt does for instance. The main disadvantage is that you need to compile the library with several compilers. Worse, sometimes you need to support several versions of the same compiler : GCC, Clang, MSVC (Visual Studio 2015, 2022, etc).

The C++ standard library changes between the compiler versions. For instance, between two versions of Visual Studio, the std::string implementation can change and this leads to runtime errors that are difficult to understand.

To sum up, a C++ library has some advantages but also disavantages. A solution is to make the library opensource and make the customers compile it themself. Another solution is to develop an header-only C++ interface (only implemented in .h files) to hide the C interface.

Avoid frequent mistakes

malloc and free or new and delete must be in the same compilation unit, i.e., same program or same DLL. Let's have a look at the following functions:

DLL_EXPORT char* GetProjectName(Project_t id);

GetProjectName returns a string allocated by the DLL. If the customer's compiler is different from the compiler that produced the DLL, deallocating the string with a free can lead to a runtime error. The reason is that the allocator can be implemented differently. For instance in debug, malloc and free often contain special code to detect allocation problems.

The classical solution:

DLL_EXPORT void GetProjectName(Project_t id, char* name);

In this case, the customer is responsible for allocating an array to store the string. You must provide the maximum size of the string or a GetProjectNameLength function. An alternative solution is to define a type which stores the string:

typedef struct MyString_ {
    const char * const str;
} MyString_t;

.. and some functions to manipulate MyString_t :

DLL_EXPORT MyString_t* CreateMyString(const str* ms);
DLL_EXPORT void DeleteMyString(MyString_t* ms);
DLL_EXPORT MyString_t* GetProjectName(Project_t id);

Fonctions CreateMyString and GetProjectName do malloc and the function DeleteMyString does a free. Hence, the DLL is responsible for both allocating and freeing the memory.

This solution also reduces risks of errors because the customer doesn't need to allocate an array with the appropriate size. The keywords consts prevent str from being modified by the customer and prevent DeleteMyString from calling free on a user-allocated memory.

Use types to improve the interface. Let's have a look at the following functions:

DLL_EXPORT int GetCurrentProjectId();
DLL_EXPORT void RemoveFile(int projectId, int fileId);

This code can be made lot clearer with types.

typedef int ProjectId_t;
typedef int FileId_t;

DLL_EXPORT ProjectId_t GetCurrentProjectId();
DLL_EXPORT void RemoveFile(ProjectId_t projectId, FileId_t fileId);

Unfortunately, the compiler doesn't throw warning if ProjectId_t is used instead of FieldId_t, but the code is lot easier to read.

Const correctness. Please declare pointers or reference as const when possible.

DLL_EXPORT char* SetProjectName(Project_t id, const char* str);

str is of type const char*. This is mandatory to enable the user to use constant string. The customer will not be able to write code observing const correctness if your library doesn't observe it either.

No more than 4 parameters for fonctions. Use structures, if they are too many inputs or if the function returns several parameters. For instance, returning an array with [x y z] can be dangerous because the order is confusing. In C++, avoid the std::pair which is also confusing.

Use opaque pointers to identify instances of your library, this allows you to hide the data. In C++, the PIMPL design pattern has this purpose. In previous examples, I used integers (for instance Project_t) because they are sometimes easier than pointers for customers. Integers can be less efficient because the mapping must be done explicitly (with a std::map or an array).

Document the data type, format and unit. GetPressure, GetTemperature or GetDistance don't mean anything if customer doesn't know if they are returning bars, N/m², °C, °F, meters or mm.

Last but not least, the lib is the interface between you and your customers. The documentation and function names must use the customers' vocabulary, not an internal jargon!

To conclude, put yourself in your customers' shoes and try to figure out what they will understand from your interface and which mistake they will do. Make mistakes impossible or at least reduce the risk of doing them.

Créer une librairie (DLL) en C ou C++ : quelques erreurs à éviter

In english: How to create a C or C++ library (DLL) : common mistakes.

Il est fréquent de fournir une librairie (bibliothèque) pour permettre au client d'utiliser votre produit dans son logiciel. Par exemple, si vous fournissez un logiciel de calcul scientifique, le client aura peut-être besoin de lire les fichiers générés par votre logiciel ou bien intégrer certains calculs à son produit. Si vous vendez des sondes de dioxyde de carbone, vous fournissez sûrement une DLL (Dynamic Link Library) permettant de lire les mesures.

Peu importe dans quel langage est développé votre logiciel, fournir une interface en C est permet une intégration presque partout et une utilisation dans la plupart des langages.

Sous Windows, vous fournissez donc un fichier .dll contenant les fonctions utiles au client, un fichier .lib qui liste ces fonctions et indique comment les trouver dans la .dll et un fichier .h qui contient la signature des fonctions lisibles par le programmeur. Sous Linux, la DLL s'appelle .so et elle est fournie uniquement avec un fichier .h.

Faut-il fournir une interface en C ou en C++ ?

Si vous avez développé votre programme en C++ et que vos clients utilisent du C++, fournir une DLL pour ce même langage permet d'en simplifier l'utilisation pour le client car il bénéficiera des avantages des classes, des références, etc. C'est ce que fait Qt par exemple. L'inconvénient est qu'il faut compiler la librairie pour plusieurs compilateurs voire plusieurs versions d'un même compilateur : GCC, Clang, MSVC (Visual Studio 2015, 2022, etc), etc.

La librairie standard C++ peut aussi changer entre les versions d'un même compilateur : entre deux versions de Visual Studio, par exemple std::string peut changer et provoquer des plantages difficiles à comprendre.

Une librairie C++ a certains avantages, mais a aussi un coût. Une solution est de rendre la bibliothèque open source pour que le client puisse la recompiler ; une autre solution est de développer une interface C++ header-only (uniquement dans le .h) qui cache l'interface C.

Éviter des erreurs fréquentes

malloc et free ou bien new et delete doivent être fait dans la même entité (programme ou DLL). Considérez la fonction suivante :

DLL_EXPORT char* GetProjectName(Project_t id);

Ici GetProjectName renvoie une chaine de caractères qui a été allouée par la DLL. Si le compilateur du client est différent du compilateur qui a produit la DLL, désallouer la chaine de caractères avec free peut provoquer un plantage car l'implémentation de l'allocateur peut être différente. Par exemple en debug, malloc et free peuvent être instrumentés pour détecter des problèmes.

La solution classique est la suivante :

DLL_EXPORT void GetProjectName(Project_t id, char* name);

Dans ce cas le client doit allouer un tableau et GetProjectName va copier la chaine. Il faut fournir au client la taille maximum possible ou une fonction GetProjectNameLength. Un alternative est de définir un type qui contient la chaine :

typedef struct MyString_ {
    const char * const str;
} MyString_t;

Et des fonctions pour manipuler MyString_t :

DLL_EXPORT MyString_t* CreateMyString(const str* ms);
DLL_EXPORT void DeleteMyString(MyString_t* ms);
DLL_EXPORT MyString_t* GetProjectName(Project_t id);

Les fonctions CreateMyString et GetProjectName font un malloc et la fonction DeleteMyString, un free. C'est donc la DLL qui se charge à la fois de l'allocation et de la libération de la mémoire.

On réduit aussi les erreurs car l'utilisateur n'a plus besoin de se soucier d'allouer la bonne taille. Les consts interdisent la modification de str par l'utilisateur pour éviter que DeleteMyString se retrouve à appeler free sur des données allouées par l'utilisateur.

Clarifier l'interface. Et les types sont là pour ça. On considère la fonction suivante :

DLL_EXPORT int GetCurrentProjectId();
DLL_EXPORT void RemoveFile(int projectId, int fileId);

Ici ce code peut être rendu beaucoup plus clair avec des types

typedef int ProjectId_t;
typedef int FileId_t;

DLL_EXPORT ProjectId_t GetCurrentProjectId();
DLL_EXPORT void RemoveFile(ProjectId_t projectId, FileId_t fileId);

Malheureusement, le compilateur n'émettra même pas un warning si l'utilisateur place un ProjectId_t au lieu d'un FileId_t, mais le code est quand même plus lisible.

Const correctness. Déclarer les pointeurs ou références const dès que possible.

DLL_EXPORT char* SetProjectName(Project_t id, const char* str);

Ici, str est const char*, c'est indispensable si l'utilisateur veut passer une chaine de caractère constante. Son code ne pourra pas respecter la const correctness si vous ne le faites pas.

Pas plus de 4 paramètres pour vos fonctions. Utiliser une structure si la fonction a trop d'entrées. Pour retourner plusieurs paramètres utilisez des structures. N'utilisez surtout pas de tableaux pour renvoyer des données de natures différentes. Par exemple renvoyer un tableau contenant [x y z] peut être dangereux car l'utilisateur risque de se tromper d'ordre. En C++, évitez les std::pair qui ont ce défaut aussi.

Utilisez des pointeurs opaques pour identifier les instances de votre lib, cela permet de cacher les données stockées. En C++, le patron PIMPL sert à ça. Dans les exemples précédents, j'ai utilisé des entiers (par exemple Project_t) ce qui est moins efficace car il faut une map qui stocke la correspondance mais c'est parfois plus facile à gérer dans le logiciel du client.

Bien documenter le format des données, les types et les unités GetPressure, GetTemperature, GetDistance ne veulent rien dire si on ne précise pas si ce sont des bars, des N/m², des °C, °F, des mètres ou des mm.

Le plus important : la lib est l'interface entre vous et le client. La documentation et le nom des fonctions doit utiliser les termes du client pas un jargon interne !

En conclusion, demandez-vous ce que le client va comprendre de votre interface et quelles erreurs il va faire. Facilitez-lui la tâche en rendant les erreurs difficiles voire impossibles.

Support technique : les chercheurs et les industriels ont des besoins très différents

La qualité du support technique est aussi importante que la qualité du produit lui-même (matériel ou logiciel). Dans son choix, le client va préférer un support technique qui sait résoudre ses problèmes rapidement. Le client va probablement rester fidèle à une marque s'il sait que le support fonctionne bien.

En faisant du SAV pour du matériel industriel (optique, électronique ou logiciel), j'avais remarqué que tous les clients ne doivent pas être traités de la même manière et qu'il y avait des besoins différents entre la recherche et l'industrie.

Ainsi, un client industriel a souvent des questions entièrement dirigées vers son but : corriger un problème ou connaitre une bonne manière de réaliser son besoin. Il a des questions du type : "Comment faire ça ? Quelle configuration permet de créer mon produit ?".

Il attend de la rigueur dans le mode d'emploi du produit et l'idéal est de lui fournir des exemples concrets qui correspondent à son besoin.

J'ai remarqué qu'un client académique (chercheur, université, etc) ou R&D a des questions plus larges. Il va par exemple demander quelles sont les différentes manières de réaliser quelque chose ? S'il y a différentes méthodes, il veut pouvoir les comparer lui-même ou lire un comparatif chiffré. Il sait généralement déjà comment fonctionne le produit ou il connait déjà la théorie et il va plutôt chercher à comprendre la réalité technique derrière le nom commercial.