Le modèle OCR qui devançait le GPT-4O

DEV - 22/08
NUMARKDOWN-8B-Thinking est un modèle de langue de vision OCR (VLM) alimenté par le raisonnement conçu pour se transformer ...

NUMARKDOWN-8B-Thinking est un modèle de langue de vision OCR (VLM) alimenté par le raisonnement conçu pour transformer les documents en bancs propres et structurés. Fonctionné à partir de QWEN2.5-VL-7B, il introduit des jetons de réflexion qui aident le modèle à analyser des dispositions complexes, des tables et des structures de documents inhabituelles avant de générer une sortie. Cela le rend particulièrement utile pour les pipelines de chiffon, l'extraction de documents et l'organisation des connaissances. Avec son approche d'abord pour le raisonnement, Numarkdown-8B-Thinking surpasse constamment l'OCR générique et même rivalise avec de grands modèles de raisonnement à source fermée en précision et en compréhension de la disposition.

Classement Arena contre des alternatives populaires (en utilisant le système de classement Trueskill-2, avec environ 500 votes anonymisés modèles):

Win / Draw / Lost-Rate contre d'autres modèles

Tableau de configuration du GPU - numarkdown-8b-thinking

Processus étape par étape pour installer et exécuter Numarkdown-8b-Thinking localement

Aux fins de ce tutoriel, nous utiliserons une machine virtuelle alimentée par GPU offerte par NodeHift; Cependant, vous pouvez reproduire les mêmes étapes avec tout autre fournisseur de cloud de votre choix. NodeHift fournit les machines virtuelles les plus abordables à une échelle qui répond aux exigences du RGPG, SOC2 et ISO27001.

Étape 1: Inscrivez-vous et configurez un compte cloud NodeHift

Visitez la plate-forme NodeHift et créez un compte. Une fois que vous vous êtes inscrit, connectez-vous à votre compte.

Suivez le processus de configuration du compte et fournissez les détails et informations nécessaires.

Étape 2: Créez un nœud GPU (machine virtuelle)

Les nœuds GPU sont des machines virtuelles GPU de NodeHift, des ressources à la demande équipées de divers GPU allant de H100 à A100. Ces machines virtuelles alimentées par le GPU fournissent un contrôle environnemental amélioré, permettant des ajustements de configuration pour les GPU, les CPU, la RAM et le stockage en fonction des exigences spécifiques.

Accédez au menu sur le côté gauche. Sélectionnez l'option GPU Nœuds, créez un nœud GPU dans le tableau de bord, cliquez sur le bouton Créer un nœud GPU et créez votre premier déploiement de machine virtuelle

Étape 3: Sélectionnez un modèle, une région et un stockage

Dans l'onglet «GPU Nœuds», sélectionnez un modèle GPU et un stockage en fonction de vos besoins et de la région géographique où vous souhaitez lancer votre modèle. Nous utiliserons 1 GPU SXM X H100 pour ce tutoriel pour obtenir les performances les plus rapides. Cependant, vous pouvez choisir un GPU plus abordable avec moins de VRAM si cela convient mieux à vos besoins.

Étape 4: Sélectionnez la méthode d'authentification

Il existe deux méthodes d'authentification disponibles: le mot de passe et la clé SSH. Les clés SSH sont une option plus sécurisée. Pour les créer, veuillez vous référer à notre documentation officielle.

Étape 5: Choisissez une image

Dans nos blogs précédents, nous avons utilisé des images prédéfinies de l'onglet Modèles lors de la création d'une machine virtuelle. Cependant, pour exécuter Numarkdown-8B-Thinking, nous avons besoin d'un environnement plus personnalisé avec des capacités complètes de développement CUDA. C'est pourquoi, dans ce cas, nous sommes passés à l'onglet Image personnalisé et avons sélectionné une image Docker spécifique qui répond à toutes les conditions d'exécution et de compatibilité.

Nous avons choisi l'image suivante:

Nvidia / Cuda: 12.1.1-devel-Ubuntu22.04
Entrez le mode de sortie en mode plein écran

Cette image est essentielle car elle comprend:

  • Boîte à outils CUDA complète (y compris NVCC)
  • Support approprié pour la construction et l'exécution d'applications basées sur GPU comme Numarkdown-8b-Thinking
  • Compatibilité avec CUDA 12.1.1 requise par certaines opérations de modèle

Mode de lancement

Nous avons sélectionné:

Serveur de shell interactif
Entrez le mode de sortie en mode plein écran

Cela nous donne un accès SSH et un contrôle complet sur les opérations des terminaux - parfait pour installer des dépendances, exécuter des références et lancer des modèles comme Numarkdown-8B-Thinking.

Authentification du référentiel Docker

Nous avons laissé tous les champs vides ici.

Étant donné que l'image Docker est accessible au public sur Docker Hub, aucune information de connexion n'est requise.

Identification

Nom du modèle:

Nvidia / Cuda: 12.1.1-devel-Ubuntu22.04
Entrez le mode de sortie en mode plein écran

Images Cuda et Cudnn de gitlab.com/nvidia/cuda. La version DEVEL contient la boîte à outils CUDA complète avec NVCC.

Cette configuration garantit que le Numarkdown-8B-Thinking s'exécute dans un environnement compatible GPU avec un accès CUDA approprié et des performances de calcul élevées.

Après avoir choisi l'image, cliquez sur le bouton «Créer» et votre machine virtuelle sera déployée.

Étape 6: Machine virtuelle a été déployée avec succès

Vous obtiendrez une confirmation visuelle que votre nœud est opérationnel.

Étape 7: Connectez-vous aux GPU à l'aide de SSH

Les GPU de NodeHift peuvent être connectés et contrôlés via un ...
[Courte citation de 8% de l'article original]

Loading...