如何在Qt使用uchardet库

news/2024/7/8 10:36:52 标签: qt, 开发语言

如何在 Qt 中使用 uchardet 库

文章目录

  • 如何在 Qt 中使用 uchardet 库
    • 一、简介
    • 二、uchardet库的下载
    • 三、在Qt中直接调用
    • 四、编译成库文件后调用
      • 4.1 编译工具下载
      • 4.2 uchardet源码编译
      • 4.3 测试编译文件
      • 4.4 Qt中使用
    • 五、一些小问题
      • 5.1 测试文件存在的问题
      • 5.2 uchardet库相关
    • 六、写在最后

一、简介

相信对编程熟悉的朋友有时候都会碰到这样一个问题——乱码

大家应该都知道,这是由于文件编码格式不正确导致的相关问题,即在文件编写和阅读的时候采取的编码格式不同,于是造成了我们阅读上的困难。

对于众多编译器,都有转文件编码与识别文件编码的相关功能,因此我们经常看到他们的身影。

在这里插入图片描述

如上图所示分别为 windows记事本、Notepad++、VsCode 所提供的文件编码格式识别。

而在网上搜索到的绝大多数方式是使用 python 中的 chardet 模块进行文件编码格式的判断。其实该库就是我们本次使用的 uchardet 库,其只是被开发者适配成了 python 版本。由于有关该库的 C++ 使用示例太少,所以就有了这篇文章,希望能给各位大佬提供思路!!!

那么我在这里简单介绍一下 uchardet 库。

uchardet(Universal Charset Detector)是一个强大的开源项目,它可以帮助我们自动识别文本的字符集编码。

uchardet 基于 MozillaCharDet 算法,该算法经过大量实际数据训练,具有高度的准确性。其核心功能是通过分析字节序列的统计特性,判断出最可能的字符编码类型,支持如 UTF-8、GBK、ISO-8859-1 等多种常见的字符集。

项目采用 C++ 编写,易于跨平台集成,并且拥有简洁的 API 接口,使得开发者可以轻松地将 uchardet 整合到他们的应用中。此外,项目还提供了 Python 绑定,方便 Python 开发者使用。

项目地址(下载方式后续过程中我会进行阐述,因此不用着急下载!!!):

  • BYVoid/uchardet: An encoding detector library ported from Mozilla (github.com)

  • uchardet / uchardet · GitLab

项目网站主页:

  • uchardet (www.freedesktop.org)

以上信息来源为以下文章,感谢作者分享!!

  • 探索高效字符检测:深入理解uchardet-CSDN博客

由此,我们对 uchardet 有了初步的认识,那么如何将其应用到项目工程中,是本文的重点。这里我将使用 Qt 对该库进行操作,同理使用 C++ 亦可实现。

在项目开始之前,简单介绍一下我所使用的配置环境:

开发平台:

  • Window 10
  • Qt 5.12.3

编译环境

  • MinGW 64-bit

二、uchardet库的下载

由于网上资料实在是太少,所以说下载也是一件难事,不过本文推荐以下下载方式:

Index of /software/uchardet/releases (www.freedesktop.org)

  • 如无法点击跳转可自行复制网址:https://www.freedesktop.org/software/uchardet/releases/

打开以后得到如下页面:

在这里插入图片描述

截至本文章撰写时间 2024/6/27,其版本更新到 0.0.8

而我们需要下载的是 uchardet-0.0.8.tar.xz,这是稳定的发行版,可以正常使用。这里对新手朋友说一句,不要直接从 Github 上下载,而要去里面的 Release 下载,否则,你下载的文件大概率无法运行。因为没有 Release 的项目,大概率正在开发,其中不免存在或多或少的问题,盲目尝试不会让我们事半功倍!!!

回归正题,对上述下载的文件解压以后得到如下图所示的文件结构。

在这里插入图片描述

那么到这里该库的源码下载完成!!!后续我们将对其进行使用。


三、在Qt中直接调用

这种方法可以实现功能,但不推荐。因为直接使用其源码文件导入到 Qt 中,会增加很多文件,对我们的阅读体验不是很好,但这里也做介绍,感兴趣的朋友可以阅读。

  1. 新建 Qt 项目,将 uchardet 源码中的 src 文件夹复制到 Qt 项目文件中:

    在这里插入图片描述

  2. 然后在 Qt 中按照如下步骤添加库文件:

    在这里插入图片描述

    如图所示,在项目文件夹上 右键,点击 Add Existing Directory

    在这里插入图片描述

    如图所示,对 uchardet.cpp 文件取消勾选。

    在这里插入图片描述

    对项目中已有的文件取消勾选!!!然后点击 OK,此时我的项目结构为:

    在这里插入图片描述

  3. 我在 UI 文件中创建了一个按钮,用来测试该库是否可行,如下所示:

    在这里插入图片描述

  4. 对按钮使用转到槽,实现其 released 槽函数。

    • widget.h 文件中进行如下更改:

      #ifndef WIDGET_H
      #define WIDGET_H
      
      #include <QWidget>
      
      #include <QFileDialog>
      #include <QDebug>
      
      /* 增加 uchardet 库头文件 */
      #include "src/uchardet.h"
      
      namespace Ui {
      class Widget;
      }
      
      class Widget : public QWidget
      {
          Q_OBJECT
      
      public:
          explicit Widget(QWidget *parent = nullptr);
          ~Widget();
      
      private slots:
          void on_pushButton_released();
      
      private:
          Ui::Widget *ui;
      };
      
      #endif // WIDGET_H
      
      
    • widget.cpp 文件中对按钮的槽函数进行实现

      /*! 
       *  @File        : widget.cpp
       *  @Brief       : 按钮槽函数
       *  @Details     : 详细说明
       *  @Param       : 参数
       *  @Return      : 返回值
       *  @Author      : Liu Jiahao
       *  @Date        : 2024-06-27 16:42:05
       *  @Version     : v1.1
       *  @Copyright   : Copyright By Liu Jiahao, All Rights Reserved
       *  
       */
      void Widget::on_pushButton_released()
      {
          QString filePath = QFileDialog::getOpenFileName(nullptr, "选择文件", "../", "所有文件 (*.*)");
      
          if (filePath.isEmpty()) {
              return;
          }
      
          QFile file(filePath);
      
          // 文件打开成功
          if (file.open(QIODevice::ReadOnly | QIODevice::Text)) {
              QByteArray buff = file.readAll();
      
              uchardet_t ud = uchardet_new();
              uchardet_handle_data(ud, buff.constData(), buff.size());
              uchardet_data_end(ud);
              const char* encoding = uchardet_get_charset(ud);
              QString result = QString::fromLatin1(encoding);
              uchardet_delete(ud);
      
              qDebug() << "该文件的编码格式为:" << result;
          }
      
          file.close();
      }
      
      

由此,完成了对该库的调用,这种方法较为简单,缺点就是会导入大量的源代码。

当我们运行程序点击按钮打开一个文件后,将会打印出该文件的编码格式,其运行结果如下图所示:

在这里插入图片描述

这里我做了一个简单的动图用于演示实现效果,如下所示:

在这里插入图片描述


四、编译成库文件后调用

Qt 中最常用的一般都是将所需库编译后调用,而 uchardet 也是可以进行这样的操作的,只不过实现起来有一点繁琐,需要我们自己进行编译。

4.1 编译工具下载

我们编译需要使用 MinGW-w64 进行编译,因此需要对该文件进行下载。

Releases · niXman/mingw-builds-binaries (github.com)

  • 如无法点击跳转可自行复制网址:https://github.com/niXman/mingw-builds-binaries/releases

截至本文章撰写时间 2024/6/27,其版本更新到 13.2.0

我们可以看到下图所示的内容:

在这里插入图片描述

各个版本有何区别,感兴趣的朋友可以自行搜索,这里将不再赘述!!!本文着重讲解如何使用 uchardet,望谅解!!!

这里我电脑是 64 位的,故我下载 x86_64-13.2.0-release-win32-seh-ucrt-rt_v11-rev0.7z,下载后解压得到以下文件信息:

在这里插入图片描述

任意一个盘都可以,我这里直接解压在了 C 盘,大家不要学我!!!

  • 尽量解压到一个自己好找的地方,后续需要使用这个地址!!!

然后打开 设置->系统->系统信息->高级系统设置->环境变量,按照图中所示步骤进行点击:

在这里插入图片描述

我这里电脑没有装中文,但界面几乎一致。

我之前将其解压到 C:/mingw64/ 目录下,因此这里我需要向环境变量中加入其 bin 文件,如下所示:

在这里插入图片描述

此时我们打开控制台(快捷键 win + R 后输入 cmd 最后回车),在其中输入 gcc -v 得到以下信息:

在这里插入图片描述

即证明安装完成,但还有一步需要操作。

打开 MinGW-w64 的安装目录,进入其 bin 文件,找到 mingw32-make.exe 文件将其复制一份重命名为 make.exe,如下所示:

在这里插入图片描述

这样做是为了我们后续使用命令时,能够方便的使用 make 命令,而不是 mingw32-make

此时再次使用控制台,输入 make -v 或者 mingw32-make -v 都能输出以下内容:

在这里插入图片描述

至此,结束安装编译工具的工作。接下来需要编译 uchardet 源码。

4.2 uchardet源码编译

同样打开控制台,这里我们需要提前将源码文件复制一份,这样方便我们出错后有回转的余地,而不是每次都要重新下载源码。我这里将复制的源码文件夹命名为 uchardet-copy,然后输入命令行,去到复制源码的文件夹,命令如下:

cd <复制后源码文件夹的路径>

运行结果如图所示:

在这里插入图片描述

此后依次输入以下命令:

mkdir build
cd build
cmake .. -G "MinGW Makefiles"
make

不出意外的话将会在 uchardet-copy/build/ 目录中生成类似的文件结构:

在这里插入图片描述

4.3 测试编译文件

后续一切操作都是基于我复制源码的文件夹,即 uchardet-copy 文件夹下的!!!

  1. 首先,需要我们进入 uchardet-copy/build/src 目录下找到 libuchardet.dll 文件,将其复制到 uchardet-copy/build/test 中:

    在这里插入图片描述

  2. 打开控制台,进入 uchardet-copy/build/test 目录中,同样使用 cd 命令:

    cd <写入自己文件路径>
    
  3. 然后在 uchardet-copy/build/test 目录中新建一个文件,我这里新建的 a.txt 文件,默认采用的是 UTF-8 编码格式,此时命令窗口中输入你想检测的文件,我使用以下命令行:

    uchardet-tests.exe a.txt
    

    得到以下内容:

    在这里插入图片描述

    可以看到其编码格式为 UTF-8,检测结果正确!

由此可以看到我们编译结果成功!!!其他编码格式相关的测试大家可以自行验证,这里不再赘述!!!

4.4 Qt中使用

通过上一步编译后我们已经得到了相关的 .a.dll 文件,其路径位于我上述所讲的 uchardet-copy/build/src 文件夹,将 .a 以及 .dll 复制到我们新建的 Qt 项目文件中。

这里需要注意的是,由于我电脑是64位的,我下载的 MinGW 也是64位版本,因此编译出的 dll 文件也是用于64位操作系统的。所以,建立 Qt 项目时,注意所需 Qt 编译环境,应当是 MinGw 64-bit!!!

除此之外,还需要添加 .h 文件,其路径位于 uchardet-copy/src 文件夹内,同样需要将其复制到我们自己的 Qt 项目文件夹中,我这里新建了文件夹 uchardet 并将相关文件复制在该文件中,如下所示:

在这里插入图片描述

然后我们需要在工程文件中导入该动态库(具体操作不予细说,这里只介绍重要部分)。

  1. 导入动态库:

    在这里插入图片描述

    具体在 .pro 文件中添加的东西为:

    win32: LIBS += -L$$PWD/uchardet/ -luchardet
    
    INCLUDEPATH += $$PWD/uchardet
    DEPENDPATH += $$PWD/uchardet
    
  2. 与本文第三小节类似,在 UI 文件中添加一个按钮:

    在这里插入图片描述

  3. 具体代码也与第三小节类似,这里简单赘述:

    widget.h 中有以下代码:

    #ifndef WIDGET_H
    #define WIDGET_H
    
    #include <QWidget>
    
    #include <QDebug>
    #include <QFileDialog>
    
    #include <uchardet/uchardet.h>
    
    namespace Ui {
    class Widget;
    }
    
    class Widget : public QWidget
    {
        Q_OBJECT
    
    public:
        explicit Widget(QWidget *parent = nullptr);
        ~Widget();
    
    private slots:
        void on_pushButton_released();
    
    private:
        Ui::Widget *ui;
    };
    
    #endif // WIDGET_H
    
    

    widget.c 文件中实现其槽函数:

    /*!
     *  @File        : widget.cpp
     *  @Brief       : 打开文件槽函数
     *  @Details     : 详细说明
     *  @Param       : 参数
     *  @Return      : 返回值
     *  @Author      : Liu Jiahao
     *  @Date        : 2024-06-28 14:43:15
     *  @Version     : v1.1
     *  @Copyright   : Copyright By Liu Jiahao, All Rights Reserved
     *
     */
    void Widget::on_pushButton_released()
    {
        QString filePath = QFileDialog::getOpenFileName(nullptr, "选择文件", "../", "所有文件 (*.*)");
    
        if (filePath.isEmpty()) {
            return;
        }
    
        QFile file(filePath);
    
        // 文件打开成功
        if (file.open(QIODevice::ReadOnly | QIODevice::Text)) {
            QByteArray buff = file.readAll();
    
            uchardet_t ud = uchardet_new();
            uchardet_handle_data(ud, buff.constData(), buff.size());
            uchardet_data_end(ud);
            const char* encoding = uchardet_get_charset(ud);
            QString result = QString::fromLatin1(encoding);
            uchardet_delete(ud);
    
            qDebug() << "该文件的编码格式为:" << result;
        }
    
        file.close();
    }
    
  4. 其运行结果也与第三小节类似,只是采用了不同的调库方式,这里就不再进行赘述。

值得注意的是,该库并不能确保百分百检测出的文件类型正确,同时,文件中如果没有文本信息,也是无法检测出来的。


五、一些小问题

在对该库的使用过程,也发现一些或多或少的小问题,在这一小节将进行阐述。

5.1 测试文件存在的问题

细心的朋友可能会注意到,在 uchardet/test 中有很多文件夹,如下所示:

在这里插入图片描述

其中均为不同语言的不同编码格式文件,例如 en 为英语,其中包含文件 ascii.txt,也就意味着该文件编码格式为 ascii,但是我们将此文件复制到 uchardet-copy/build/test 中进行测试的时候,发现其并不能输出任何东西,如下所示:

在这里插入图片描述

通过对 uchardet-copy/testuchardet-tests.c 文件的阅读,其中包含以下代码:

/* In a unit test, 0 means success, other returned values mean failure. */
success = (strcmp(charset, expected_charset) != 0);
if (success) {
    fprintf(stderr, "success: %d, Got %s, expected %s\n", success, charset, expected_charset);
}

通过对这代码的分析可以知道,charset 为检测出的文件编码格式类型,而 expected_charset 为期望的文件编码格式类型。再往上看,有以下代码:

expected_charset = strrchr(filename, '/');
if (expected_charset == NULL)
{
    expected_charset = filename;
}
else
{
    expected_charset++;
}
expected_charset = strtok(expected_charset, ".");

我们通过阅读这段代码,可以知道,其进行的操作是把你输入的文件名去后缀并保存起来,使其成为 expected_charset 变量。

那么上述问题迎刃而解,例如,我们输入的文件名是 ascii.txt,经过其检测后得出其编码格式为 ascii,那么对于 success = (strcmp(charset, expected_charset) != 0); 这一句代码而言,得到的结果 success 必定为 0,故没有输出。

可以看的出来,作者这样做的目的是,当文件编码格式和文件名相同时,判定为真,则不进行输出。当文件编码格式和文件名不相同时,判定为假,输出错误信息。

其实这对我们开发而言,并没有多大关系,也不影响我们使用这个库进行编码识别的操作,只是我在开发过程中遇到这个问题的一些感想。希望能对本文读者有所帮助!!!

5.2 uchardet库相关

由于编码格式众多且繁杂,且该库长时间没有进行更新,难免会有一些小问题,导致识别文件编码格式不准确。但这都是在我们可以承受的范围之内。

另外肯定有人好奇,我怎么知道这个库为什么这么用。实际上,我在网上找了大量资料,对于该库的描述实在是太少,偶然间看到一位大佬写的文章:C++ 自动检测编码_uchardet c++±CSDN博客

顿时恍然大悟,于是我也去查看了 Notepad++ 的源码文件:

在这里插入图片描述

并且,notepad++ 为了解决该库无法识别出 UTF-8 BOM、UTF-16BE BOM、UTF-16LE BOM 的问题,专门对这几个类型进行了单独的判断:

在这里插入图片描述

在这里插入图片描述

那么综合来讲,该库的性能以及使用体验还是不错的,大家感兴趣可以自行尝试。


六、写在最后

本文介绍了 如何在Qt中使用uchardet库,同时该库也可适用于C++。以及使用过程中存在的一些小问题

本文中的代码后续会逐步开源,欢迎关注,敬请期待!!!

欢迎广大读者提出问题以及修改意见,本人看到后会给予回应,欢迎留言,后续会逐步进行开源!!!
另外,由于文章是作者手打的文字,有些地方可能文字会出错,望谅解,也可私信联系我,我对其进行更改。

  • 个人CSDN账号:刘梓谦_-CSDN博客

  • Gitee:刘佳豪 (liu-jiahaohappy) - Gitee.com

  • GitHub:Jiahao-Liu29 (github.com)


http://www.niftyadmin.cn/n/5537116.html

相关文章

【MySQL】MySQL 9.0悄悄的来了

MySQL 9.0.0 中的变化 MySQL 9.0 中的新功能 JavaScript 存储程序 MySQL 企业版现在支持用 JavaScript 编写的存储程序&#xff0c;例如使用 CREATE FUNCTION下面显示的语句和 JavaScript 代码创建的这个简单示例&#xff1a; CREATE FUNCTION gcd(a INT, b INT) RETURNS …

Redis基础教程(十四):Redis连接

&#x1f49d;&#x1f49d;&#x1f49d;首先&#xff0c;欢迎各位来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里不仅可以有所收获&#xff0c;同时也能感受到一份轻松欢乐的氛围&#xff0c;祝你生活愉快&#xff01; &#x1f49d;&#x1f49…

LangChain4j系列:带你入门LangChain4j框架

本文所有示例均在 langchain4j 0.31.0 版本之上进行&#xff0c;langchain4j也是在快速发展的阶段。 LangChain4j 框架是什么&#xff1f; LangChain4j 于 2023 年初在 ChatGPT 的炒作中开始开发。思想来源于 Python 和 JavaScript LLM 库&#xff0c;并加入创新思想&#xff…

云原生之使用Docker部署RabbitMQ消息中间件

云原生之使用Docker部署RabbitMQ消息中间件 一、RabbitMQ介绍1.1 RabbitMQ简介1.2 RabbitMQ特点1.3 RabbitMQ使用场景 二、检查Docker环境2.1 检查Docker版本2.2 检查操作系统版本2.3 检查Docker状态 三、下载RabbitMQ镜像四、部署RabbitMQ服务4.1创建挂载目录4.2 运行RabbitMQ…

香蕉云编+uniapp打包ios的开发包和生产包

登录香蕉云编&#xff0c;找到 云编-ios证书生成&#xff0c;新建CSR文件&#xff0c;并下载csr文件。 登录苹果开发者中心&#xff0c;进入证书页面。 1.创建一个证书&#xff0c;选择ios Distribution类型即可&#xff0c;这是个通用的证书&#xff0c;既能用来打正式包又能…

光伏电站数据采集方案(基于工业路由器部署)

​ 一、方案概述 本方案采用星创易联SR500工业路由器作为核心网关设备&#xff0c;实现对光伏电站现场数据的实时采集、安全传输和远程监控。SR500具备多接口、多功能、高可靠性等特点&#xff0c;能够满足光伏电站数据采集的各种需求。&#xff08;key-iot.com/iotlist/sr500…

9 redis,memcached,nginx网络组件

课程目标: 1.网络模块要处理哪些事情 2.reactor是怎么处理这些事情的 3.reactor怎么封装 4.网络模块与业务逻辑的关系 5.怎么优化reactor? io函数 函数调用 都有两个作用:io检测 是否就绪 io操作 1. int clientfd = accept(listenfd, &addr, &len); 检测 全连接队列…

Windows环境使用SpringBoot整合Minio平替OSS

目录 配置Minio环境 一、下载minio.exe mc.exe 二、设置用户名和密码 用管理员模式打开cmd 三、启动Minio服务器 四、访问WebUI给的地址 SpringBoot整合Minio 一、配置依赖&#xff0c;application.yml 二、代码部分 FileVO MinioConfig MinioUploadService MinioController 三…