使用Python读取IPA中的软件信息

最近公司需要对所有的iOS工程进行持续集成,软件的编译、打包、内测版的ipa发布都需要自动化。在做ipa自动化发布时,需要拿到一个打包好的ipa之后提取出里面相关的信息,比如显示名称、版本号、bundle identifier等等。

其实要做到这一点是非常容易的,前提是你要对ipa包的结构有所了解。

ipa文件结构

首先,一个ipa其实就是一个zip文件改了后缀名。如果你把ipa的后缀改回.zip,那么你就能通过各种解压软件直接解压了。

解压后的目录结构是:

其中,Info.plist就是软件信息的所在。

但是别高兴得太早,这里的Info.plist并不是纯文本文件,而是一种被称为Binary Plist的东西。之前在做iOS开发时,工程里面用的plist几乎都是XML形式的纯文本文件,所以一开始我理所当然地认为这个也是纯文本文件,结果在这里卡了半天。在命令行运行man plist就能看到下面这段话:

The property list programming interface allows you to convert hierarchically structured combinations of these basic types to and from two formats: standard XML and an optimized, opaque binary format.

所以不能看到.plist结尾的文件就当文本文件处理。

Python中相应的library

在知道ipa的结构之后,就能知道需要用哪些Python library了,第一个是zipfile,这个库能够处理zip类型的文件,并且可以在不解压的情况下读取里面某个文件的内容。另外一个是plistlib。但是需要注意的是,在Python 3.4之前,这个库是不支持 Binary Plist 的解析的。所以如果使用 Python 2.7 的话,需要使用三方库biplist

下面使用 Python 3.4 为例进行解析。之所以选择 Python 3.x 是因为 2.x 版本在处理 Unicode 和非 Unicode 混用时非常麻烦。而 Python 3.x 起,所有的 string 都使用 Unicode 编码了,就跟 ObjC 中一样。

首先使用zipfile将ipa文件打开,zipfile中,namelist()方法能够列出里面包含的所有文件路径,并返回一个list。根据ipa的结构,我们要找的Info.plistPayload/软件名字.app/Info.plist,所以这里使用一个正则表达式找到这个文件路径。

ZipFile.read()这个方法,能够在不解压zip文件的情况下读取里面的内容,在Python 3.4中返回的是bytes类型,再使用plistlib.loads()载入。其中,loads()是 Python 3.4 才加入的新API,它接收一个bytes对象,将其解析成相应的Python对象。

这样,这个plist文件就变成了一个dict,从而可以取到里面的内容。

如果使用 Python 2.7, 则可以用biplist代替,这个库使用的是跟 Python 2.7 中plistlib相同的API。

如果不使用 Python,或者不想用这些类库,则可以通过一些外部程序来解决Binary Plist的读取问题。比如使用/usr/libexec/PlistBuddy或者是plutil,这些都是 OS X 自带的工具,通过它们,你可以读取Plist中的指定项,或者直接把plist变成JSON文件。

1 Comment

  • Thung

    2014 年 12 月 07 日 at 14:42 回复

    感谢您有用的帖子

Post a Comment